[Paper] ODIN 기반 CPU‑GPU 아키텍처와 Replay 기반 시뮬레이션 및 에뮬레이션

발행: 2일 전 (2026년 3월 18일 AM 02:16 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.16812v1

Overview

이 논문은 재생‑기반 검증 흐름을 도입하여 ODIN 아키텍처 위에 구축된 긴밀히 결합된 CPU‑GPU 칩렛 시스템을 대상으로 합니다. 결정론적 파형을 한 번 캡처한 뒤 이를 RTL 시뮬레이션과 FPGA‑기반 에뮬레이션 모두에서 재생‑재사용함으로써, 저자들은 복잡하고 고동시성 CPU‑GPU 상호작용을 디버깅하고 검증하는 데 필요한 시간을 크게 단축시켰으며, 전체 시스템 부팅‑및‑워크로드 사이클을 단 한 번의 1/4로 축소했습니다.

주요 기여

Replay‑driven 방법론은 단일 설계 데이터베이스를 사용해 시뮬레이션과 에뮬레이션을 통합합니다.
GPU 워크로드 및 NoC 프로토콜 시퀀스에 대한 결정론적 파형 캡처는 플랫폼 간 재현 가능한 재생을 가능하게 합니다.
칩렛 기반 SoC 내에서 다중 코어 Xe GPU, 전체 CPU 서브시스템, 그리고 구성 가능한 Network‑on‑Chip (NoC)의 엔드‑투‑엔드 검증을 수행했습니다.
가속된 디버그 사이클: 시스템 부팅 및 워크로드 실행을 전통적인 통합 시간의 1/4에 검증했습니다.
확장 가능한 접근 방식은 이기종 컴퓨팅 블록을 갖는 미래의 칩렛 중심 설계에 적용될 수 있습니다.

방법론

캡처 단계 (시뮬레이션) – 사이클 정확도 RTL 시뮬레이터에서 대표적인 GPU 워크로드를 실행하고, 칩렛 인터페이스와 내부 NoC 링크에서 발생하는 모든 관련 신호 전이(파형)를 기록합니다.
재생 단계 (에뮬레이션) – 캡처된 파형을 동일한 RTL 넷리스트를 호스팅하는 FPGA 기반 하드웨어 에뮬레이터에 입력합니다. 입력이 결정적이기 때문에 에뮬레이터는 전체 워크로드를 다시 실행할 필요 없이 정확히 동일한 동작을 재현합니다.
통합 데이터베이스 – 시뮬레이션과 에뮬레이션이 단일 진실 소스 디자인 데이터베이스를 공유하므로, 프로토콜 수정과 같은 변경 사항이 두 환경에 자동으로 반영됩니다.
검증 루프 – 디버그 엔지니어는 전체 워크로드를 다시 실행하지 않고도 프로브를 삽입하고, 재생 스크립트를 수정하거나, 코너 케이스 시나리오를 트리거할 수 있어 문제를 격리하고 수정하는 데 걸리는 시간을 크게 단축할 수 있습니다.

핵심 아이디어는 캡처된 파형을 재생 스크립트로 취급하여 테스트 대상 시스템을 구동함으로써, 비결정적이고 고동시성인 실행을 반복 가능하고 결정적인 테스트벤치로 전환하는 것입니다.

Results & Findings

지표	Traditional Flow	Replay‑Driven Flow
전체 시스템 부팅 및 워크로드 실행에 걸리는 시간	~4 분기	1 분기
디버그 회전시간 (문제 격리 → 수정)	며칠에서 몇 주	시간
GPU‑CPU‑NoC 상호작용 커버리지	시뮬레이션 실행 시간에 의해 제한됨	전체 시스템 재생 덕분에 거의 완전
자원 활용도 (시뮬레이션 vs. 에뮬레이션)	CPU/GPU 연산은 높고 하드웨어는 낮음	균형 잡힘 – FPGA가 무거운 병렬성을 처리

저자들은 재생 방법론이 기능적 정확성(동일한 파형)을 유지하면서 10배 속도 향상을 제공한다는 것을 입증했습니다. 또한, 이 접근법은 기존의 무작위 테스트로는 재현하기 어려운 칩렛 경계에서의 미묘한 프로토콜 버그를 발견합니다.

실용적인 시사점

빠른 시장 출시: CPU, GPU, AI 가속기를 결합한 칩렛 기반 SoC에 대해 시장 진입 속도가 빨라집니다—이는 신흥 AI‑엣지 디바이스에 필수적입니다.
검증 비용 감소: 시뮬레이션 시간이 줄어들고 비용이 많이 드는 FPGA 프로토타입에 대한 의존도가 낮아집니다.
이기종 통합에 대한 높은 신뢰성: 결정론적 리플레이를 통해 팀이 실리콘 테이프‑아웃 전에 엔드‑투‑엔드 동작(부팅, 드라이버 로딩, AI 추론)을 검증할 수 있습니다.
재사용 가능한 테스트 자산: 캡처된 워크로드가 설계 반복 간에 포터블하게 전환되어 최소한의 노력으로 회귀 테스트를 수행할 수 있습니다.
개발자 도구: 이 방법론을 CI 파이프라인에 통합할 수 있어 소프트웨어 팀이 하드웨어‑소프트웨어 공동 설계 문제(예: 드라이버‑GPU 동기화 버그)를 조기에 파악할 수 있습니다.

AI 파이프라인이나 그래픽 엔진을 구축하는 개발자에게 이는 보다 안정적인 하드웨어 플랫폼과 다음 세대 이기종 칩을 목표로 할 때 디버그 루프가 짧아짐을 의미합니다.

제한 사항 및 향후 작업

재생 정확도: 이 접근 방식은 캡처된 파형이 모든 관련 내부 상태를 완전히 나타낸다고 가정합니다. 아날로그 변동, 전력 관련 타이밍 등 놓친 부작용은 포함되지 않을 수 있습니다.
캡처 크기의 확장성: 매우 긴 워크로드는 방대한 파형 파일을 생성하여 저장소와 재생 대역폭에 부담을 줄 수 있습니다.
하드웨어 의존성: 효과적인 재생을 위해서는 전체 설계를 호스팅할 수 있는 고성능 FPGA 에뮬레이터가 필요합니다. 이는 매우 큰 칩렛에 대해서는 제공되지 않을 수 있습니다.
향후 방향: 저자들은 부분 재생(핵심 구간만 재생) 및 자동 파형 압축을 통합하고, 방법론을 혼합 신호 칩렛 및 런타임 적응 워크로드로 확장하는 것을 제안합니다.

전반적으로, 재생 기반 검증 프레임워크는 CPU‑GPU 칩렛 에코시스템 통합을 가속화하는 설득력 있는 경로를 제공하지만, 점점 더 큰 설계를 다루기 위한 추가 도구 개선이 필요함을 인정합니다.

저자

Nij Dorairaj
Debabrata Chatterjee
Hong Wang
Hong Jiang
Alankar Saxena
Altug Koker
Thiam Ern Lim
Cathrane Teoh
Chuan Yin Loo
Bishara Shomar
Anthony Lester

논문 정보

arXiv ID: 2603.16812v1
카테고리: cs.DC, cs.AI, cs.AR
출판일: 2026년 3월 17일
PDF: PDF 다운로드

[Paper] ODIN 기반 CPU‑GPU 아키텍처와 Replay 기반 시뮬레이션 및 에뮬레이션

Overview

주요 기여

방법론

Results & Findings

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] 확장 가능한 자동 레포지토리 수준 데이터셋을 향한 소프트웨어 취약점 탐지