[Paper] 基于 ODIN 的 CPU‑GPU 架构，采用 Replay 驱动的仿真与模拟

发布: 3天前 (2026年3月18日 GMT+8 01:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.16812v1

概述

本文介绍了一种用于基于 ODIN 架构构建的紧耦合 CPU‑GPU 芯片组系统的 replay‑driven validation flow。通过一次捕获确定性的波形，并在 RTL 仿真和基于 FPGA 的仿真中重复使用这些波形，作者显著缩短了调试和验证复杂高并发 CPU‑GPU 交互所需的时间——将完整的系统启动和工作负载循环缩减至原来的四分之一。

关键贡献

Replay‑driven methodology 通过使用单一设计数据库统一仿真和仿真（emulation）。
Deterministic waveform capture 用于 GPU 工作负载和 NoC 协议序列的确定性波形捕获，使跨平台的可重复重放成为可能。
End‑to‑end validation 对基于芯粒的 SoC 中的多核 Xe GPU、完整 CPU 子系统以及可配置的片上网络 (NoC) 进行端到端验证。
Accelerated debug cycle：系统启动和工作负载执行的验证时间仅为传统集成时间的四分之一，实现调试周期加速。
Scalable approach 可扩展的方法，可应用于未来以芯粒为中心、具备异构计算块的设计。

方法论

捕获阶段（仿真） – 在周期精确的 RTL 仿真器中运行代表性的 GPU 工作负载，记录芯片块接口和内部 NoC 链路的所有相关信号转换（波形）。
回放阶段（仿真） – 将捕获的波形输入到基于 FPGA 的硬件仿真器中，该仿真器承载相同的 RTL 网表。由于输入是确定性的，仿真器能够在不重新运行完整工作负载的情况下再现完全相同的行为。
统一数据库 – 仿真和回放共享单一的真理来源设计数据库，确保任何更改（例如协议微调）都会自动反映在两个环境中。
验证循环 – 调试工程师可以注入探针、修改回放脚本或触发极端场景，而无需重新执行整个工作负载，从而显著缩短定位和修复问题的时间。

关键思想是将捕获的波形视为 回放脚本，驱动被测系统，将非确定性、高并发的执行转化为可重复、确定性的测试平台。

结果与发现

指标	传统流程	重放驱动流程
完整系统启动及工作负载执行所需时间	~4 个季度	1 个季度
调试周转时间（问题定位 → 修复）	几天到几周	几小时
GPU‑CPU‑NoC 交互覆盖率	受仿真运行时间限制	由于全系统重放，接近完整
资源利用率（仿真 vs. 加速仿真）	高 CPU/GPU 计算，硬件资源少	均衡——FPGA 处理大量并行

作者展示了重放方法 保持功能正确性（波形相同），同时在集成验证中实现 10 倍加速。此外，该方法还能发现芯片块边界的细微协议错误，这些错误在传统随机测试中难以复现。

Practical Implications

Faster Time‑to‑Market for chiplet‑based SoCs that combine CPUs, GPUs, and AI accelerators—critical for emerging AI‑edge devices.
Reduced Validation Cost: fewer simulation hours and less reliance on costly FPGA prototypes.
Higher Confidence in Heterogeneous Integration: deterministic replay lets teams verify end‑to‑end behavior (boot, driver loading, AI inference) before silicon tape‑out.
Reusable Test Assets: captured workloads become portable across design iterations, enabling regression testing with minimal effort.
Developer Tooling: the methodology can be wrapped into CI pipelines, giving software teams early visibility into hardware‑software co‑design issues (e.g., driver‑GPU synchronization bugs).

对于构建 AI 流水线或图形引擎的开发者而言，这意味着 更稳定的硬件平台 和 更短的调试周期，在面向下一代异构芯片时能够更快地交付产品。

限制与未来工作

Replay Fidelity：该方法假设捕获的波形能够完整表示所有相关的内部状态；任何未捕获的副作用（例如模拟变化、与电源相关的时序）都未被覆盖。
Scalability of Capture Size：极长的工作负载会生成巨大的波形文件，可能会对存储和回放带宽造成压力。
Hardware Dependency：有效的回放需要能够容纳完整设计的强大 FPGA 仿真器，对于极大型的 chiplet 可能无法获得。
Future Directions：作者建议集成 partial‑replay（仅回放关键部分）和 automated waveform compression，并将该方法扩展到 mixed‑signal chiplet 和 runtime adaptive workloads。

总体而言，基于回放的验证框架为加速 CPU‑GPU chiplet 生态系统的集成提供了有力的路径，同时也认识到需要进一步完善工具，以应对日益庞大的设计。

作者

Nij Dorairaj
Debabrata Chatterjee
Hong Wang
Hong Jiang
Alankar Saxena
Altug Koker
Thiam Ern Lim
Cathrane Teoh
Chuan Yin Loo
Bishara Shomar
Anthony Lester

论文信息

arXiv ID: 2603.16812v1
类别: cs.DC, cs.AI, cs.AR
出版日期: 2026年3月17日
PDF: 下载 PDF

[Paper] 基于 ODIN 的 CPU‑GPU 架构，采用 Replay 驱动的仿真与模拟

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测