[Paper] TeraPool: 물리 설계 인식, 1024 RISC‑V 코어 공유 L1 메모리 확장 클러스터 설계, 고대역폭 메인 메모리 링크
Source: arXiv - 2603.01629v1
개요
이 논문은 TeraPool이라는 새로운 칩 아키텍처를 소개합니다. 이 아키텍처는 공유 멀티‑메가바이트 L1 메모리 주변에 1024개의 RISC‑V 코어를 배치하면서도 인터커넥트를 물리적으로 구현 가능한 수준으로 유지합니다. 많은 작은 클러스터에서 하나의 “확대된” 클러스터로 전환함으로써 데이터 이동 오버헤드를 크게 줄이고, 거의 기가헤르츠 수준의 동작과 인상적인 에너지 효율을 달성합니다. 이는 차세대 AI 가속기 및 고성능 컴퓨팅 엔진의 강력한 후보가 됩니다.
주요 기여
- Massive‑scale shared‑L1 cluster: 1024개의 부동소수점 연산이 가능한 RISC‑V 코어가 >4 k‑뱅크 L1 메모리를 공유하며, 현재까지 보고된 가장 큰 클러스터입니다.
- Hierarchical, low‑latency interconnect: 코어 수에 따라 선형적으로 확장되는(제곱이 아닌) 물리적으로 구현 가능한 PE‑to‑L1 네트워크로, 1–11 사이클의 접근 지연 시간을 제공합니다.
- Energy‑efficient memory access: 뱅크당 9–13.5 pJ의 에너지 소비로, 단일 FP32 FMA 연산에 소요되는 에너지와 비슷합니다.
- Full‑bandwidth HBM2E link: HBM2E의 네이티브 대역폭으로 데이터를 스트리밍할 수 있는 고속 메인 메모리 인터페이스를 통합하여, 전통적인 “글로벌 인터커넥트 병목”을 제거합니다.
- Silicon results: 12 nm FinFET 공정으로 제작되었으며, 910 MHz(0.80 V, 25 °C)에서 동작하고 벤치마크 커널에서 최대 1.89 TFLOP/s 피크 성능과 200 GFLOP/s/W 지속 성능을 제공합니다.
방법론
- 아키텍처 설계 – 저자들은 많은 작은 클러스터에 작업 부하를 분산하면 빈번한 데이터 셔플링이 발생한다는 관찰에서 시작합니다. 따라서 모든 코어가 공통 L1 메모리에 직접 접근할 수 있는 단일 대형 클러스터를 제안합니다.
- 물리‑인식 인터커넥트 – 전체 교차바의 2차적 폭증을 피하기 위해 계층적 네트워크를 구축합니다: 코어를 작은 서브‑클러스터로 그룹화하고, 이들이 다단계 라우터를 통해 일련의 메모리 뱅크에 연결됩니다. 이는 배선 길이와 라우팅 혼잡을 낮게 유지하며, 1024‑코어 다이에서 매우 중요합니다.
- 메모리 뱅킹 – L1은 >4000개의 뱅크로 나뉘며, 각각 독립적으로 주소 지정이 가능합니다. 뱅킹은 트래픽을 분산시키고 경쟁을 감소시키며, 인터커넥트가 요청을 병렬로 라우팅할 수 있게 합니다.
- HBM2E 통합 – 전용 고대역폭 링크(메모리 컨트롤러와 유사)가 클러스터 가장자리에 배치되어, HBM2E 속도로 공유 L1에 데이터를 공급합니다.
- 실리콘 프로토타이핑 – 전체 시스템을 12 nm FinFET 공정으로 테이프‑아웃했습니다. 실리콘 후 측정을 통해 주파수, 지연, 전력 및 매트릭스‑곱, 컨볼루션 등 다양한 컴퓨팅 커널에 대한 성능을 검증했습니다.
결과 및 발견
| Metric | Achieved |
|---|---|
| Core count | 1024 RISC‑V PEs |
| Clock frequency | 910 MHz (typical) |
| Peak FP32 performance | 1.89 TFLOP/s |
| Energy efficiency | 200 GFLOP/s/W (average IPC ≈ 0.8) |
| L1 access latency | 1–11 cycles (depending on frequency) |
| Memory‑bank access energy | 9–13.5 pJ (≈ 0.74–1.1 × FMA energy) |
| HBM2E bandwidth utilization | Full native bandwidth sustained |
이 결과는 공유‑L1 클러스터를 천 개 코어까지 확장해도 면적이나 전력 페널티가 크게 발생하지 않으며, 계층형 인터커넥트가 몇 사이클 정도의 지연만 추가하면서도 접근당 에너지를 연산과 동등하게 유지한다는 것을 보여줍니다. 벤치마크 커널은 높은 IPC를 달성하여 아키텍처가 코어에 데이터를 충분히 공급할 수 있음을 확인합니다.
실용적 함의
- AI/ML accelerators – 대규모 병렬성, 고대역폭 메모리, 저전력 데이터 이동의 결합으로 TeraPool은 최소 지연 시간으로 대형 텐서를 처리해야 하는 추론 엔진에 강력한 템플릿이 됩니다.
- Edge‑to‑cloud compute modules – 설계가 서브‑1 GHz 주파수에서 뛰어난 에너지 효율로 동작하므로 전력 제한이 있는 플랫폼(예: 자율 드론, 스마트 카메라)에도 통합될 수 있으며 여전히 높은 FLOP 수치를 요구합니다.
- RISC‑V ecosystem – 확장 가능한 생산 등급 RISC‑V 클러스터를 시연함으로써 다른 벤더가 오픈 ISA 위에 맞춤형 가속기를 구축하는 장벽을 낮추고, 보다 풍부한 소프트웨어 스택 및 툴링 지원을 촉진합니다.
- System‑level design – 계층적 인터커넥트 접근 방식은 다른 다코어 칩(예: CPU, DSP)에서도 재사용될 수 있어 라우팅 혼잡을 완화하고 전체 교차바 없이 더 많은 코어 수를 구현할 수 있게 합니다.
- Memory‑centric computing – 공유 L1과 HBM2E 링크의 긴밀한 결합은 데이터가 연산에 가깝게 머무르는 메모리 중심 패러다임을 보여주어 비용이 많이 드는 글로벌 네트워크의 필요성을 줄입니다.
Limitations & Future Work
- Scalability beyond 1024 cores – 계층형 네트워크가 2차 성장 문제를 완화하지만, 라우팅 밀도 한계에 부딪힐 수 있다; 3‑D 스태킹이나 칩렛 통합을 탐색하는 것이 다음 단계가 될 수 있다.
- Software ecosystem – 공유‑L1, 천 코어 패브릭에 워크로드를 효율적으로 매핑하려면 정교한 컴파일러와 런타임 시스템이 필요하다; 논문에서는 데이터 배치와 동기화를 이 규모에서 처리할 수 있는 툴링이 필요함을 언급한다.
- Process dependence – 결과가 12 nm FinFET 노드에 종속되어 있다; 설계를 최신 노드(예: 5 nm)로 포팅하면 밀도와 전력이 개선될 수 있지만, 계층형 인터커넥트에 새로운 타이밍 문제를 초래할 수도 있다.
- General‑purpose workloads – 평가가 부동소수점 커널에 초점을 맞추고 있다; 혼합 정밀도, 정수, 혹은 제어 중심 워크로드에 대한 성능 평가를 수행하면 아키텍처 적용 범위를 넓힐 수 있다.
TL;DR: TeraPool은 단일, 물리적으로 구현 가능한 1024개의 RISC‑V 코어 클러스터가 방대한, 뱅크드 L1 메모리를 공유함으로써 거의 기가헤르츠 수준의 속도, 테라플롭 규모의 연산, 그리고 업계 최고 수준의 에너지 효율을 제공한다는 것을 입증한다. 그 계층형 인터커넥트와 전용 대역폭 HBM2E 링크는 개발자가 차세대 AI 가속기와 다코어 시스템을 오픈 RISC‑V 플랫폼 위에 구축하는 실용적인 경로를 열어준다.
저자
- Yichao Zhang
- Marco Bertuletti
- Chi Zhang
- Samuel Riedel
- Diyou Shen
- Bowen Wang
- Alessandro Vanelli-Coralli
- Luca Benini
논문 정보
- arXiv ID: 2603.01629v1
- 분류: cs.DC, cs.AR
- 출판일: 2026년 3월 2일
- PDF: PDF 다운로드