[Paper] ODIN 기반 CPU‑GPU 아키텍처와 Replay 기반 시뮬레이션 및 에뮬레이션
Source: arXiv - 2603.16812v1
Overview
이 논문은 재생‑기반 검증 흐름을 도입하여 ODIN 아키텍처 위에 구축된 긴밀히 결합된 CPU‑GPU 칩렛 시스템을 대상으로 합니다. 결정론적 파형을 한 번 캡처한 뒤 이를 RTL 시뮬레이션과 FPGA‑기반 에뮬레이션 모두에서 재생‑재사용함으로써, 저자들은 복잡하고 고동시성 CPU‑GPU 상호작용을 디버깅하고 검증하는 데 필요한 시간을 크게 단축시켰으며, 전체 시스템 부팅‑및‑워크로드 사이클을 단 한 번의 1/4로 축소했습니다.
주요 기여
- Replay‑driven 방법론은 단일 설계 데이터베이스를 사용해 시뮬레이션과 에뮬레이션을 통합합니다.
- GPU 워크로드 및 NoC 프로토콜 시퀀스에 대한 결정론적 파형 캡처는 플랫폼 간 재현 가능한 재생을 가능하게 합니다.
- 칩렛 기반 SoC 내에서 다중 코어 Xe GPU, 전체 CPU 서브시스템, 그리고 구성 가능한 Network‑on‑Chip (NoC)의 엔드‑투‑엔드 검증을 수행했습니다.
- 가속된 디버그 사이클: 시스템 부팅 및 워크로드 실행을 전통적인 통합 시간의 1/4에 검증했습니다.
- 확장 가능한 접근 방식은 이기종 컴퓨팅 블록을 갖는 미래의 칩렛 중심 설계에 적용될 수 있습니다.
방법론
- 캡처 단계 (시뮬레이션) – 사이클 정확도 RTL 시뮬레이터에서 대표적인 GPU 워크로드를 실행하고, 칩렛 인터페이스와 내부 NoC 링크에서 발생하는 모든 관련 신호 전이(파형)를 기록합니다.
- 재생 단계 (에뮬레이션) – 캡처된 파형을 동일한 RTL 넷리스트를 호스팅하는 FPGA 기반 하드웨어 에뮬레이터에 입력합니다. 입력이 결정적이기 때문에 에뮬레이터는 전체 워크로드를 다시 실행할 필요 없이 정확히 동일한 동작을 재현합니다.
- 통합 데이터베이스 – 시뮬레이션과 에뮬레이션이 단일 진실 소스 디자인 데이터베이스를 공유하므로, 프로토콜 수정과 같은 변경 사항이 두 환경에 자동으로 반영됩니다.
- 검증 루프 – 디버그 엔지니어는 전체 워크로드를 다시 실행하지 않고도 프로브를 삽입하고, 재생 스크립트를 수정하거나, 코너 케이스 시나리오를 트리거할 수 있어 문제를 격리하고 수정하는 데 걸리는 시간을 크게 단축할 수 있습니다.
핵심 아이디어는 캡처된 파형을 재생 스크립트로 취급하여 테스트 대상 시스템을 구동함으로써, 비결정적이고 고동시성인 실행을 반복 가능하고 결정적인 테스트벤치로 전환하는 것입니다.
Results & Findings
| 지표 | Traditional Flow | Replay‑Driven Flow |
|---|---|---|
| 전체 시스템 부팅 및 워크로드 실행에 걸리는 시간 | ~4 분기 | 1 분기 |
| 디버그 회전시간 (문제 격리 → 수정) | 며칠에서 몇 주 | 시간 |
| GPU‑CPU‑NoC 상호작용 커버리지 | 시뮬레이션 실행 시간에 의해 제한됨 | 전체 시스템 재생 덕분에 거의 완전 |
| 자원 활용도 (시뮬레이션 vs. 에뮬레이션) | CPU/GPU 연산은 높고 하드웨어는 낮음 | 균형 잡힘 – FPGA가 무거운 병렬성을 처리 |
저자들은 재생 방법론이 기능적 정확성(동일한 파형)을 유지하면서 10배 속도 향상을 제공한다는 것을 입증했습니다. 또한, 이 접근법은 기존의 무작위 테스트로는 재현하기 어려운 칩렛 경계에서의 미묘한 프로토콜 버그를 발견합니다.
실용적인 시사점
- 빠른 시장 출시: CPU, GPU, AI 가속기를 결합한 칩렛 기반 SoC에 대해 시장 진입 속도가 빨라집니다—이는 신흥 AI‑엣지 디바이스에 필수적입니다.
- 검증 비용 감소: 시뮬레이션 시간이 줄어들고 비용이 많이 드는 FPGA 프로토타입에 대한 의존도가 낮아집니다.
- 이기종 통합에 대한 높은 신뢰성: 결정론적 리플레이를 통해 팀이 실리콘 테이프‑아웃 전에 엔드‑투‑엔드 동작(부팅, 드라이버 로딩, AI 추론)을 검증할 수 있습니다.
- 재사용 가능한 테스트 자산: 캡처된 워크로드가 설계 반복 간에 포터블하게 전환되어 최소한의 노력으로 회귀 테스트를 수행할 수 있습니다.
- 개발자 도구: 이 방법론을 CI 파이프라인에 통합할 수 있어 소프트웨어 팀이 하드웨어‑소프트웨어 공동 설계 문제(예: 드라이버‑GPU 동기화 버그)를 조기에 파악할 수 있습니다.
AI 파이프라인이나 그래픽 엔진을 구축하는 개발자에게 이는 보다 안정적인 하드웨어 플랫폼과 다음 세대 이기종 칩을 목표로 할 때 디버그 루프가 짧아짐을 의미합니다.
제한 사항 및 향후 작업
- 재생 정확도: 이 접근 방식은 캡처된 파형이 모든 관련 내부 상태를 완전히 나타낸다고 가정합니다. 아날로그 변동, 전력 관련 타이밍 등 놓친 부작용은 포함되지 않을 수 있습니다.
- 캡처 크기의 확장성: 매우 긴 워크로드는 방대한 파형 파일을 생성하여 저장소와 재생 대역폭에 부담을 줄 수 있습니다.
- 하드웨어 의존성: 효과적인 재생을 위해서는 전체 설계를 호스팅할 수 있는 고성능 FPGA 에뮬레이터가 필요합니다. 이는 매우 큰 칩렛에 대해서는 제공되지 않을 수 있습니다.
- 향후 방향: 저자들은 부분 재생(핵심 구간만 재생) 및 자동 파형 압축을 통합하고, 방법론을 혼합 신호 칩렛 및 런타임 적응 워크로드로 확장하는 것을 제안합니다.
전반적으로, 재생 기반 검증 프레임워크는 CPU‑GPU 칩렛 에코시스템 통합을 가속화하는 설득력 있는 경로를 제공하지만, 점점 더 큰 설계를 다루기 위한 추가 도구 개선이 필요함을 인정합니다.
저자
- Nij Dorairaj
- Debabrata Chatterjee
- Hong Wang
- Hong Jiang
- Alankar Saxena
- Altug Koker
- Thiam Ern Lim
- Cathrane Teoh
- Chuan Yin Loo
- Bishara Shomar
- Anthony Lester
논문 정보
- arXiv ID: 2603.16812v1
- 카테고리: cs.DC, cs.AI, cs.AR
- 출판일: 2026년 3월 17일
- PDF: PDF 다운로드