[Paper] RISC‑V가 머신러닝에 준비됐나요? 비동기 작업을 이용한 포터블 Gaussian Processes

발행: (2026년 4월 1일 PM 08:03 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.00736v1

개요

이 논문은 최신 RISC‑V 프로세서가 Gaussian‑process (GP) 머신러닝 워크로드의 높은 연산 요구를 따라잡을 수 있는지를 조사한다. 비동기 다중‑작업 런타임 HPX 위에 구축된 GPRat 라이브러리를 확장함으로써, 저자들은 x86‑64 (AMD Zen 2), ARM (Fujitsu A64FX 및 Ampere 기반 48‑core), 그리고 RISC‑V SOPHON SG2042 칩이라는 세 가지 아키텍처에서 GP 예측 및 하이퍼‑파라미터 최적화를 벤치마크한다.

Key Contributions

  • Portable GP library: HPX‑based 추상화를 GPRat에 추가하여 단일 코드 베이스가 x86‑64, ARM, RISC‑V CPU에서 효율적으로 실행될 수 있게 함.
  • Comprehensive benchmarking suite: GP 추론 및 하이퍼‑파라미터 튜닝에 대해 노드‑레벨 강력 스케일링 및 문제‑크기 스케일링 실험을 수행함.
  • Cross‑architecture performance analysis: 세 플랫폼 전반에 걸쳐 단일 코어 속도, 병렬 확장성, 메모리‑서브시스템 효율성을 정량화함.
  • Insights for hardware designers: 벡터‑레지스터 폭과 메모리 대역폭이 GP 워크로드에서 RISC‑V 성능을 제한하는 주요 병목임을 확인함.
  • Open‑source artifacts: 재현성 및 추가 연구를 촉진하기 위해 수정된 GPRat 코드와 HPX 설정 스크립트를 공개함.

방법론

  1. HPX‑구동 태스크 병렬성 – GPRat은 GP 연산(커널 행렬 구성, Cholesky 분해, 로그 가능도 평가)을 세밀한 비동기 태스크로 표현합니다. HPX는 이러한 태스크를 모든 사용 가능한 코어에 스케줄링하고, 부하 균형 및 데이터 의존성을 자동으로 처리합니다.
  2. 이식성 레이어 – 아키텍처별 최적화(예: SIMD 인트린식, 캐시 차단)는 얇은 추상화 뒤에 캡슐화되어, 동일한 고수준 GP 코드가 x86‑64(AVX2/AVX‑512), ARM(SVE), RISC‑V(RVV)용으로 컴파일됩니다.
  3. 벤치마크 설계
    • Strong scaling: 문제 크기를 고정(예: 32 k 학습 포인트)하고 코어 수를 1개에서 전체 노드까지 변화시킴.
    • Problem‑size scaling: 코어 수를 고정(보통 48 또는 64)하고 학습 포인트 수를 늘려 메모리 대역폭 및 캐시 동작을 평가.
  4. 수집된 메트릭 – 실시간 경과 시간, 초당 FLOP, 메모리 대역폭 활용도, HPX 태스크 오버헤드 통계. 모든 실험은 OS 잡음을 피하기 위해 깨끗한 시스템 이미지에서 수행되었습니다.

Results & Findings

아키텍처단일 코어 성능 (상대값)전체 노드 강력 스케일 가속문제 규모 스케일링 (최고 대비 25 % 이내)
AMD Zen 2 (64‑core)Baseline 1.058 % faster than A64FX per core; 9 % slower than 48‑core ARM at full nodeComparable to ARM
Fujitsu A64FX (48‑core, SVE)~0.68× Zen 2Scales well; outperforms Zen 2 by ~9 % when all cores are usedWithin 25 % of Zen 2
SOPHON SG2042 (RISC‑V, 64‑core)0.07–0.14× Zen 2 (up to 14× slower)Parallel scaling weak; large‑scale runs can be 25× slower than x86‑64/ARMSignificantly behind both
  • Vector width matters – ARM’s SVE (256‑bit) and AMD’s AVX2/AVX‑512 give a clear edge over the current 128‑bit RVV implementation on SG2042.
  • Memory subsystem – The RISC‑V chip’s lower sustained bandwidth and higher latency hurt the dense linear‑algebra kernels that dominate GP training.
  • Scalability – HPX’s task model scales equally well on all three platforms; the performance gap is primarily hardware‑driven, not software‑driven.

실용적인 시사점

  • 엣지 디바이스에서 ML 추론을 목표로 하는 개발자는 고성능 ARM CPU(예: A64FX 또는 향후 Neoverse 코어)를 x86‑64의 대체품으로 안심하고 사용할 수 있다. GP 기반 모델을 실행할 때 비슷하거나 더 나은 스케일링 덕분이다.
  • 무거운 ML 워크로드에 대한 RISC‑V 채택은 아직 시기상조이다; 목표 칩이 넓은 RVV 레지스터(≥256 bit)와 고대역폭 메모리 서브시스템을 제공하지 않는 한 개발자는 상당한 성능 패널티를 예상해야 한다.
  • HPX 기반 비동기 태스킹은 이식 가능하고 확장 가능한 ML 커널을 위한 효과적인 추상화임이 입증되었으며, 이는 다른 ML 라이브러리(예: GPyTorch, TensorFlow)도 유사한 런타임 레이어를 도입하면 크로스 아키텍처 성능을 달성할 수 있음을 시사한다.
  • 하드웨어 로드맵 가이드 – ML 워크로드를 목표로 하는 칩 설계자는 벤치마크에서 강조된 격차를 메우기 위해 RVV 벡터 폭 확장, 캐시 차단 전략, 메모리 컨트롤러 최적화를 우선시해야 한다.

제한 사항 및 향후 작업

  • 하드웨어 범위 – 단일 RISC‑V 구현(SOPHON SG2042)만 평가했으며, 최신 RVV‑지원 실리콘(예: SiFive Performance 코어)에서는 결과가 다를 수 있습니다.
  • 커널 초점 – 본 연구는 밀집 GP 커널에 집중했으며, 희소 또는 근사 GP 방법은 다른 스케일링 특성을 보일 수 있습니다.
  • 소프트웨어 스택 – 현재 RVV 인트린식은 수작업으로 작성되었으며, 보다 성숙한 컴파일러 벡터화 파이프라인이 기본 성능을 향상시킬 수 있습니다.
  • 향후 방향 – 벤치마크 스위트를 확장하여 학습(그래디언트 기반 하이퍼파라미터 최적화)을 포함하고, 혼합 정밀도 연산을 탐색하며, 다른 HPX‑호환 ML 알고리즘(예: 베이지안 신경망)을 통합하는 것이 다음 단계로 제시됩니다.

저자

  • Alexander Strack
  • Patrick Diehl
  • Dirk Pflüger

논문 정보

  • arXiv ID: 2604.00736v1
  • 분류: cs.DC, cs.ET
  • 발표일: 2026년 4월 1일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »