[Paper] HetCCL: 이기종 GPU를 활용한 LLM 학습 가속화

발행: (2026년 1월 30일 오후 02:31 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2601.22585v1

개요

이 논문은 HetCCL이라는 새로운 집합‑통신 라이브러리를 소개합니다. 이 라이브러리는 NVIDIA와 AMD 카드를 혼합한 GPU 클러스터에서 대규모 언어 모델(LLM) 학습을 효율적으로 실행할 수 있게 합니다. 벤더‑특정 통신 스택(NCCL 및 RCCL) 사이의 격차를 드라이버를 건드리지 않고 연결함으로써, HetCCL은 이기종 GPU 팜을 실용적으로 만들고 학습 시간과 하드웨어 비용을 모두 절감합니다.

핵심 기여

  • 통합 통신 레이어는 NVIDIA의 NCCL과 AMD의 RCCL을 투명하게 결합하여, 서로 다른 GPU 공급업체 간에 RDMA 기반 데이터 교환을 가능하게 합니다.
  • 두 가지 새로운 크로스‑벤더 메커니즘: (1) 백엔드에 구애받지 않는 라우팅 쉼으로, 집합 연산 호출을 적절한 벤더 라이브러리로 전달하고, (2) RDMA 가속 전송으로 호스트 CPU 병목을 우회하면서 벤더 수준 최적화를 유지합니다.
  • 코드 변경 없이 통합: 기존 PyTorch/TensorFlow 학습 스크립트를 이질적인 클러스터에서도 그대로 실행할 수 있습니다.
  • 성능 동등성을 제공하며, 동질적인 환경에서는 네이티브 NCCL/RCCL과 동일하고, 이종 벤더 구성에서는 최대 1.3배의 속도 향상을 달성합니다.
  • 오픈‑소스 구현과 가벼운 API를 제공하여, 표준 딥러닝 프레임워크에 손쉽게 적용할 수 있습니다.

방법론

  1. Backend Abstraction – HetCCL은 런타임에 GPU 공급업체를 감지하고 집합 연산(예: all‑reduce, broadcast)을 해당 공급업체 라이브러리로 라우팅하는 얇은 추상화 레이어를 정의합니다.
  2. RDMA Transport Engine – PCIe‑host 메모리 복사에 의존하는 대신, HetCCL은 InfiniBand/RoCE RDMA를 활용하여 노드 간 GPU 메모리 사이에 텐서를 직접 이동시킵니다. 공급업체와 무관합니다.
  3. Hybrid Scheduling – 특정 집합 연산에 대해 HetCCL은 참여 GPU를 동질적인 하위 그룹(NVIDIA 전용, AMD 전용)으로 분할하고, 각 그룹은 자체 네이티브 라이브러리를 사용합니다. 그런 다음 RDMA 엔진을 통해 하위 결과를 결합합니다.
  4. Evaluation Setup – 저자들은 200 Gb/s InfiniBand로 연결된 16‑노드 클러스터(8 × NVIDIA A100, 8 × AMD MI250)를 구축했습니다. 표준 LLM 학습 커널(BERT‑large, GPT‑2‑XL)을 벤치마크하고, 엔드‑투‑엔드 학습 처리량, 집합 연산 지연시간, 확장 효율성을 측정했습니다.

Results & Findings

시나리오기준 (NCCL/RCCL)HetCCL기준 대비 속도 향상
동질 NVIDIA (8 A100)1.00× (NCCL)0.99×–1 %
동질 AMD (8 MI250)1.00× (RCCL)1.01×+1 %
혼합 (4 A100 + 4 MI250)NCCL‑only 또는 RCCL‑only (비효율적)HetCCL1.22× (overall)
엔드‑투‑엔드 GPT‑2‑XL 훈련 (토큰/초)12.4 K15.3 K+23 %
All‑reduce 지연 시간 (256 MiB)1.8 ms (NCCL) / 2.0 ms (RCCL)1.9 ms≈ baseline
  • 동질 클러스터에서의 동등성은 HetCCL이 거의 오버헤드를 추가하지 않음을 보여줍니다.
  • 벤더 간 스케일링이 차별점입니다: HetCCL은 모든 GPU가 단일 벤더 라이브러리를 사용하도록 강제하는 “느린 경로”를 피하여, 그렇지 않으면 빠른 장치가 정체되는 것을 방지합니다.
  • 훈련 비용 절감: 조직이 오래된 AMD 카드를 최신 NVIDIA GPU와 혼합할 수 있게 함으로써, 전체 하드웨어 비용을 최대 30 %까지 낮추면서도 훈련 시간을 경쟁력 있게 유지할 수 있습니다.

실용적인 시사점

  • 비용 효율적인 GPU 팜 – 기업은 전체 NVIDIA 교체를 구매하는 대신 기존 AMD GPU 투자를 확장할 수 있어, 이전 자본 지출에 대한 ROI를 가속화합니다.
  • 간소화된 DevOps – 훈련 스크립트를 다시 작성하거나 별도 클러스터를 유지할 필요가 없습니다; HetCCL의 즉시 사용 가능한 API는 동일한 PyTorch/TensorFlow 코드베이스와 작동합니다.
  • 클라우드 제공업체 유연성 – NVIDIA와 AMD 인스턴스를 모두 제공하는 멀티테넌트 클라우드 서비스는 이제 성능을 희생하지 않고 “이기종” VM 패밀리를 제공할 수 있어 새로운 가격 계층을 열어줍니다.
  • 미래 대비 – 새로운 공급업체(예: Intel Xe‑HP)가 시장에 진입함에 따라 동일한 추상화 패턴을 확장할 수 있어, 공급업체 종속으로부터 투자를 보호합니다.
  • 연구 가속화 – 제한된 예산을 가진 학술 연구실은 이기종 GPU 클러스터를 구성해 otherwise unreachable LLM을 훈련시킬 수 있어, 보다 빠른 실험을 촉진합니다.

제한 사항 및 향후 작업

  • RDMA 의존성 – HetCCL의 성능 향상은 고속 RDMA 패브릭에 의존한다; 이더넷 전용 클러스터에서는 이점이 감소한다.
  • 벤더 라이브러리 업데이트 – NCCL 또는 RCCL이 주요 버전을 출시할 때마다 호환성을 재검증해야 하며, 지속적인 유지보수가 필요하다.
  • 16노드 이상 확장성 – 논문은 최대 16노드까지 평가했으며, 수백 개 GPU에 대한 대규모 테스트는 향후 탐색 과제로 남는다.
  • 신규 인터커넥트 지원 – NVIDIA의 NVLink‑2 또는 AMD의 Infinity Fabric을 노드 간에 활용하도록 전송 엔진을 확장하는 것은 아직 연구가 필요한 방향이다.

전반적으로 HetCCL은 이기종 GPU 클러스터가 이론적인 가능성을 넘어 오늘날 LLM 훈련 워크로드에 실용적이고 고성능 솔루션임을 입증한다.

저자

  • Heehoon Kim
  • Jaehwan Lee
  • Taejeoung Kim
  • Jongwon Park
  • Jinpyo Kim
  • Pyongwon Suh
  • Ryan H. Choi
  • Sangwoo Lee
  • Jaejin Lee

논문 정보

  • arXiv ID: 2601.22585v1
  • 분류: cs.DC, cs.LG
  • 출판일: 2026년 1월 30일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »