[Paper] AutoFSM: IR 및 SystemC 기반 테스트를 통한 FSM 코드 생성을 위한 다중 에이전트 프레임워크

발행: 4개월 전 (2025년 12월 12일 오후 06:15 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.11398v1

Overview

이 논문은 AutoFSM이라는 다중 에이전트 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)을 목적에 맞게 설계된 중간 표현(IR) 및 SystemC 기반 테스트와 결합하여 유한 상태 머신(FSM) 제어 로직에 대한 신뢰할 수 있는 Verilog 코드를 생성합니다. 생성 파이프라인을 구조화하고 검증을 자동화함으로써, 저자들은 코드 정확도와 디버깅 속도가 눈에 띄게 향상된다는 것을 실증했습니다. 이는 AI‑지원 하드웨어 설계를 일상적인 엔지니어에게 실용화할 수 있는 중요한 진전이라 할 수 있습니다.

Key Contributions

Structured IR for FSMs – 구문 세부 사항을 고수준 상태 머신 의미론으로부터 분리하는 명확하고 계층적인 중간 표현으로, 구문 오류율을 크게 낮춥니다.
Multi‑agent orchestration – 별도의 에이전트가 IR 생성, Verilog 변환, 테스트벤치 생성을 각각 담당하여 병렬 개발과 디버깅을 용이하게 합니다.
SystemC‑driven automatic testbench – SystemC 모델링과 자동 생성 테스트벤치를 최초로 통합하여, 생성된 RTL에 대한 빠르고 높은 커버리지의 기능 검증을 제공합니다.
SKT‑FSM benchmark – 복잡도 3단계에 걸친 67개의 계층형 FSM을 포함하는 새로운 공개 데이터셋을 제공하여, 하드웨어 생성 평가용 데이터셋의 공백을 메웁니다.
Empirical gains – 동일한 기본 LLM을 사용했을 때, AutoFSM은 오픈소스 MAGE 프레임워크에 비해 통과율을 최대 11.94 % 향상시키고 구문 오류를 최대 17.62 % 감소시킵니다.

Methodology

Prompt‑to‑IR Agent – LLM은 원하는 FSM에 대한 자연어 설명을 받아 구조화된 IR(상태, 전이, 입출력, 계층)을 출력합니다. IR은 형식이 보장된 JSON‑유사 스키마로 표현됩니다.
IR‑to‑Verilog Agent – 두 번째 LLM(또는 규칙 기반 변환기)이 IR을 받아 Verilog RTL을 생성합니다. IR이 이미 구문 일관성을 보장하므로 Verilog 생성기는 오류가 잦은 구문 대신 관용적인 코딩 패턴에 집중할 수 있습니다.
SystemC Modeling Agent – Verilog 생성과 병행하여, 동일한 IR로부터 SystemC 행동 모델을 구축합니다. 이 모델은 기능적 정확성의 오라클 역할을 합니다.
Automatic Testbench Synthesis – SystemC 모델을 이용해 테스트벤치 생성기가 자극 벡터를 만들고, 출력을 모니터링하며, 불일치를 LLM 루프에 반환하여 반복적인 정제를 가능하게 합니다.
Evaluation on SKT‑FSM – 저자들은 각 벤치마크 사례에 대해 전체 파이프라인을 실행하고, 구문 오류 빈도, 시뮬레이션 통과율, 전체 생성 시간을 측정합니다.

Results & Findings

메트릭	AutoFSM (LLM + IR)	MAGE (baseline)	개선
구문 오류율	5.3 %	22.9 %	‑17.6 %
통과율 (시뮬레이션)	78.1 %	66.2 %	+11.9 %
FSM당 평균 생성 시간	12 s	15 s	초기 오류 필터링으로 인한 속도 향상

Key takeaways

IR은 강력한 가드레일 역할을 하여 구문 오류를 3배 이상 감소시켰습니다.
SystemC 기반 테스트벤치는 기능 버그를 조기에 포착하여 전체 통과율을 높였습니다.
다중 에이전트 설계는 깊이가 다른 FSM에서도 일관된 이점을 보여주며, 가장 복잡한 벤치마크 항목에서도 성능 향상이 유지됩니다.

Practical Implications

Faster Prototyping – 하드웨어 팀은 제어 로직을 자연어(또는 경량 DSL)로 기술하고 몇 초 안에 합성 가능한 Verilog을 얻을 수 있어 초기 RTL 초안 작성 시간이 크게 단축됩니다.
Reduced Debug Overhead – 초기 구문 검증과 자동화된 기능 테스트 덕분에 수동 시뮬레이션 사이클이 감소하고, 엔지니어는 아키텍처 설계에 더 집중할 수 있습니다.
Toolchain Integration – IR이 언어에 구애받지 않으므로 기존 CI/CD 파이프라인에 쉽게 연결되어 FSM 블록의 지속적인 생성 및 회귀 테스트가 가능해집니다.
Educational Use – 학생 및 주니어 디자이너는 Verilog 구문을 완벽히 익히지 않아도 FSM 설계를 실험할 수 있어 학습 보조 도구로 활용할 수 있습니다.
Open‑source Benchmark – SKT‑FSM은 새로운 LLM 기반 하드웨어 생성기를 구축하는 모든 사람에게 바로 사용할 수 있는 테스트 스위트를 제공하여 커뮤니티 주도의 개선을 촉진합니다.

Limitations & Future Work

LLM Dependency – 생성된 IR 및 Verilog의 품질은 기본 LLM에 크게 의존합니다. 규모가 작거나 학습이 충분히 이루어지지 않은 모델은 동일한 오류 감소 효과를 보장하지 못할 수 있습니다.
Scope to FSMs – AutoFSM은 유한 상태 머신 제어 로직에 초점을 맞추고 있어, 연산 유닛과 같은 데이터 경로 컴포넌트로 확장하는 것은 아직 해결되지 않은 과제입니다.
Benchmark Diversity – SKT‑FSM이 계층형 FSM을 포괄하지만, 실제 설계에서는 혼합 레벨 타이밍 제약 및 벤더‑특정 프리미티브가 존재하는데, 이는 아직 데이터셋에 포함되지 않았습니다.
Future Directions – 저자들은 (1) 테스트벤치 피드백을 활용한 강화 학습을 도입해 생성 루프를 닫는 작업, (2) 타이밍 및 전력 주석을 포함하도록 IR을 확장, (3) 상용 RTL 라이브러리와 대규모 시스템‑레벨 설계에 대한 평가를 진행할 계획입니다.

Authors

Qiuming Luo
Yanming Lei
Kunzhong Wu
Yixuan Cao
Chengjian Liu

Paper Information

arXiv ID: 2512.11398v1
Categories: cs.SE, cs.MA
Published: December 12, 2025
PDF: Download PDF

[Paper] AutoFSM: IR 및 SystemC 기반 테스트를 통한 FSM 코드 생성을 위한 다중 에이전트 프레임워크

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 에이전트가 작성한 풀 리퀘스트에서의 라이브러리 사용에 관한 연구

[Paper] Mini-SFC: 서비스 기능 체인의 오케스트레이션 및 관리를 위한 종합 시뮬레이션 프레임워크

[Paper] CIS 벤치마크 스캔 결과 시각화

[Paper] 커버리지만으로는 충분하지 않다: SBFL 기반 인사이트, 수동 생성 테스트 vs. 자동 생성 테스트