[Paper] TeraPool:一种物理设计感知的、1024 RISC‑V 核共享 L1 内存的可扩展集群设计,具备高带宽主存链接

发布: (2026年3月2日 GMT+8 17:05)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.01629v1

概览

本文介绍了 TeraPool,一种新颖的芯片架构,它将 1024 个 RISC‑V 核心 围绕 共享的多兆字节 L1 内存 布局,同时保持互连在物理上可实现。通过从多个小集群转变为单一的“放大”集群,该设计大幅削减了数据移动开销,并实现了接近千兆赫的运行频率以及令人印象深刻的能效——使其成为下一代 AI 加速器和高性能计算引擎的有力候选方案。

关键贡献

  • 大规模共享 L1 集群:1024 个具备浮点运算能力的 RISC‑V 核心共享超过 4 k 银行的 L1 存储器,是迄今为止报告的最大此类集群。
  • 层次化、低延迟互连:一种可物理实现的 PE‑to‑L1 网络,随核心数量线性(而非二次)扩展,提供 1–11 周期的访问延迟。
  • 能效内存访问:每个银行访问耗能 9–13.5 pJ,约等于单次 FP32 FMA 运算的能耗。
  • 全带宽 HBM2E 链路:集成的高速主存接口,能够以 HBM2E 的原生带宽流式传输数据,消除传统的“全局互连瓶颈”。
  • 硅片结果:采用 12 nm FinFET 制造,运行于 910 MHz(0.80 V,25 °C),在基准核上实现最高 1.89 TFLOP/s 峰值性能和 200 GFLOP/s/W 持续性能。

方法论

  1. 架构设计 – 作者从观察到将工作负载拆分到许多小集群会导致频繁的数据洗牌入手。因此他们提出一个 单一 大集群,所有核心可以直接访问共享的 L1 内存。
  2. 物理感知互连 – 为避免全交叉开关的二次方增长,他们构建了一个 分层 网络:核心被分组到小子集群,通过多级路由器连接到一组内存库。这保持了布线长度和路由拥塞低,对于 1024 核芯片至关重要。
  3. 内存分库 – L1 被划分为 >4000 个库,每个库独立可寻址。分库分散流量,降低争用,并让互连能够并行路由请求。
  4. HBM2E 集成 – 一个专用的高带宽链接(类似内存控制器)位于集群边缘,以 HBM2E 速率向共享 L1 提供数据。
  5. 硅原型 – 整个系统在 12 nm FinFET 工艺中完成掩模版制造。后硅测量验证了频率、延迟、功耗以及在一套计算核(矩阵乘法、卷积等)上的性能。

结果与发现

指标达成情况
核心数量1024 个 RISC‑V PE
时钟频率910 MHz(典型值)
峰值 FP32 性能1.89 TFLOP/s
能效200 GFLOP/s/W(平均 IPC ≈ 0.8)
L1 访问延迟1–11 个周期(取决于频率)
内存‑bank 访问能耗9–13.5 pJ(≈ 0.74–1.1 × FMA 能耗)
HBM2E 带宽利用率持续实现全原生带宽

这些结果表明,共享 L1 集群可以在不产生过高面积或功耗惩罚的情况下扩展到千核规模,并且层次化互连仅增加了少量周期的延迟,同时保持每次访问的能耗与计算相当。基准内核实现了高 IPC,进一步验证了该架构能够为核心提供充足的数据供给。

Practical Implications

  • AI/ML 加速器 – 大规模并行、宽带存储和低能耗数据移动的组合,使 TeraPool 成为需要以最小延迟处理大张量的推理引擎的有力模板。
  • 边缘‑到‑云计算模块 – 由于该设计在亚 1 GHz 频率下运行且能效极佳,可集成到功耗受限的平台(例如自主无人机、智能摄像头),仍能提供高 FLOP 计算能力。
  • RISC‑V 生态系统 – 通过展示可扩展的、生产级的 RISC‑V 集群,该工作降低了其他厂商在开放指令集上构建定制加速器的门槛,促进了更丰富的软件栈和工具支持。
  • 系统级设计 – 分层互连方法可在其他多核芯片(如 CPU、DSP)中复用,以缓解布线拥塞,实现更高核数而无需完整的交叉开关。
  • 以存储为中心的计算 – 将共享 L1 与 HBM2E 链路紧密耦合,展示了一种以存储为中心的范式,使数据保持在靠近计算单元的位置,降低了对昂贵全局网络的需求。

限制与未来工作

  • 可扩展性超出1024核 – 虽然分层网络缓解了二次增长,但进一步扩展仍可能受到布线密度的限制;探索3‑D堆叠或 chiplet 集成可能是下一步。
  • 软件生态系统 – 将工作负载高效映射到共享 L1、千核结构上需要复杂的编译器和运行时系统;论文指出需要能够在此规模下处理数据放置和同步的工具。
  • 工艺依赖性 – 结果基于 12 nm FinFET 工艺节点;将设计移植到更新的节点(例如 5 nm)可能提升密度和功耗表现,但也可能为分层互连带来新的时序挑战。
  • 通用工作负载 – 评估主要聚焦于浮点内核;在混合精度、整数或控制密集型工作负载上的性能评估将扩大该架构的适用范围。

TL;DR:TeraPool 证明了一个 单一、物理可实现的 1024 核 RISC‑V 集群共享大容量分银行 L1 内存 能够提供接近千兆赫的速度、TFLOP 级计算以及业界领先的能效。其分层互连和全带宽 HBM2E 链路为开发者在开放的 RISC‑V 平台上构建下一代 AI 加速器和多核系统提供了实用路径。

作者

  • Yichao Zhang
  • Marco Bertuletti
  • Chi Zhang
  • Samuel Riedel
  • Diyou Shen
  • Bowen Wang
  • Alessandro Vanelli-Coralli
  • Luca Benini

论文信息

  • arXiv ID: 2603.01629v1
  • Categories: cs.DC, cs.AR
  • Published: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »