[Paper] AutoFSM: IR 및 SystemC 기반 테스트를 통한 FSM 코드 생성을 위한 다중 에이전트 프레임워크
발행: (2025년 12월 12일 오후 06:15 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.11398v1
Overview
이 논문은 AutoFSM이라는 다중 에이전트 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)을 목적에 맞게 설계된 중간 표현(IR) 및 SystemC 기반 테스트와 결합하여 유한 상태 머신(FSM) 제어 로직에 대한 신뢰할 수 있는 Verilog 코드를 생성합니다. 생성 파이프라인을 구조화하고 검증을 자동화함으로써, 저자들은 코드 정확도와 디버깅 속도가 눈에 띄게 향상된다는 것을 실증했습니다. 이는 AI‑지원 하드웨어 설계를 일상적인 엔지니어에게 실용화할 수 있는 중요한 진전이라 할 수 있습니다.
Key Contributions
- Structured IR for FSMs – 구문 세부 사항을 고수준 상태 머신 의미론으로부터 분리하는 명확하고 계층적인 중간 표현으로, 구문 오류율을 크게 낮춥니다.
- Multi‑agent orchestration – 별도의 에이전트가 IR 생성, Verilog 변환, 테스트벤치 생성을 각각 담당하여 병렬 개발과 디버깅을 용이하게 합니다.
- SystemC‑driven automatic testbench – SystemC 모델링과 자동 생성 테스트벤치를 최초로 통합하여, 생성된 RTL에 대한 빠르고 높은 커버리지의 기능 검증을 제공합니다.
- SKT‑FSM benchmark – 복잡도 3단계에 걸친 67개의 계층형 FSM을 포함하는 새로운 공개 데이터셋을 제공하여, 하드웨어 생성 평가용 데이터셋의 공백을 메웁니다.
- Empirical gains – 동일한 기본 LLM을 사용했을 때, AutoFSM은 오픈소스 MAGE 프레임워크에 비해 통과율을 최대 11.94 % 향상시키고 구문 오류를 최대 17.62 % 감소시킵니다.
Methodology
- Prompt‑to‑IR Agent – LLM은 원하는 FSM에 대한 자연어 설명을 받아 구조화된 IR(상태, 전이, 입출력, 계층)을 출력합니다. IR은 형식이 보장된 JSON‑유사 스키마로 표현됩니다.
- IR‑to‑Verilog Agent – 두 번째 LLM(또는 규칙 기반 변환기)이 IR을 받아 Verilog RTL을 생성합니다. IR이 이미 구문 일관성을 보장하므로 Verilog 생성기는 오류가 잦은 구문 대신 관용적인 코딩 패턴에 집중할 수 있습니다.
- SystemC Modeling Agent – Verilog 생성과 병행하여, 동일한 IR로부터 SystemC 행동 모델을 구축합니다. 이 모델은 기능적 정확성의 오라클 역할을 합니다.
- Automatic Testbench Synthesis – SystemC 모델을 이용해 테스트벤치 생성기가 자극 벡터를 만들고, 출력을 모니터링하며, 불일치를 LLM 루프에 반환하여 반복적인 정제를 가능하게 합니다.
- Evaluation on SKT‑FSM – 저자들은 각 벤치마크 사례에 대해 전체 파이프라인을 실행하고, 구문 오류 빈도, 시뮬레이션 통과율, 전체 생성 시간을 측정합니다.
Results & Findings
| 메트릭 | AutoFSM (LLM + IR) | MAGE (baseline) | 개선 |
|---|---|---|---|
| 구문 오류율 | 5.3 % | 22.9 % | ‑17.6 % |
| 통과율 (시뮬레이션) | 78.1 % | 66.2 % | +11.9 % |
| FSM당 평균 생성 시간 | 12 s | 15 s | 초기 오류 필터링으로 인한 속도 향상 |
Key takeaways
- IR은 강력한 가드레일 역할을 하여 구문 오류를 3배 이상 감소시켰습니다.
- SystemC 기반 테스트벤치는 기능 버그를 조기에 포착하여 전체 통과율을 높였습니다.
- 다중 에이전트 설계는 깊이가 다른 FSM에서도 일관된 이점을 보여주며, 가장 복잡한 벤치마크 항목에서도 성능 향상이 유지됩니다.
Practical Implications
- Faster Prototyping – 하드웨어 팀은 제어 로직을 자연어(또는 경량 DSL)로 기술하고 몇 초 안에 합성 가능한 Verilog을 얻을 수 있어 초기 RTL 초안 작성 시간이 크게 단축됩니다.
- Reduced Debug Overhead – 초기 구문 검증과 자동화된 기능 테스트 덕분에 수동 시뮬레이션 사이클이 감소하고, 엔지니어는 아키텍처 설계에 더 집중할 수 있습니다.
- Toolchain Integration – IR이 언어에 구애받지 않으므로 기존 CI/CD 파이프라인에 쉽게 연결되어 FSM 블록의 지속적인 생성 및 회귀 테스트가 가능해집니다.
- Educational Use – 학생 및 주니어 디자이너는 Verilog 구문을 완벽히 익히지 않아도 FSM 설계를 실험할 수 있어 학습 보조 도구로 활용할 수 있습니다.
- Open‑source Benchmark – SKT‑FSM은 새로운 LLM 기반 하드웨어 생성기를 구축하는 모든 사람에게 바로 사용할 수 있는 테스트 스위트를 제공하여 커뮤니티 주도의 개선을 촉진합니다.
Limitations & Future Work
- LLM Dependency – 생성된 IR 및 Verilog의 품질은 기본 LLM에 크게 의존합니다. 규모가 작거나 학습이 충분히 이루어지지 않은 모델은 동일한 오류 감소 효과를 보장하지 못할 수 있습니다.
- Scope to FSMs – AutoFSM은 유한 상태 머신 제어 로직에 초점을 맞추고 있어, 연산 유닛과 같은 데이터 경로 컴포넌트로 확장하는 것은 아직 해결되지 않은 과제입니다.
- Benchmark Diversity – SKT‑FSM이 계층형 FSM을 포괄하지만, 실제 설계에서는 혼합 레벨 타이밍 제약 및 벤더‑특정 프리미티브가 존재하는데, 이는 아직 데이터셋에 포함되지 않았습니다.
- Future Directions – 저자들은 (1) 테스트벤치 피드백을 활용한 강화 학습을 도입해 생성 루프를 닫는 작업, (2) 타이밍 및 전력 주석을 포함하도록 IR을 확장, (3) 상용 RTL 라이브러리와 대규모 시스템‑레벨 설계에 대한 평가를 진행할 계획입니다.
Authors
- Qiuming Luo
- Yanming Lei
- Kunzhong Wu
- Yixuan Cao
- Chengjian Liu
Paper Information
- arXiv ID: 2512.11398v1
- Categories: cs.SE, cs.MA
- Published: December 12, 2025
- PDF: Download PDF