[Paper] 신뢰성 있고 복원력 있는 LLM 학습 및 서빙을 위한 Collective Communication Library
발행: (2026년 1월 1일 오전 03:53 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.25059v1
개요
대규모 언어 모델(LLM)의 학습 및 서비스는 이제 고속 네트워크로 연결된 수십 개에서 수천 개의 GPU를 일상적으로 사용합니다. NIC 고장이나 일시적인 링크 속도 저하와 같은 단일 네트워크 문제만으로도 전체 작업이 정체될 수 있어 소중한 GPU 시간의 10–15 %를 소모합니다. 이 논문은 R²CCL이라는 결함 허용 집합 통신 라이브러리를 소개합니다. 이 라이브러리는 여러 NIC를 통해 트래픽을 자동으로 재경로 지정하여 학습 및 추론 파이프라인을 거의 성능 저하 없이 유지합니다.
주요 기여
- 무손실, 저오버헤드 페일오버: R²CCL은 다중 NIC 하드웨어를 활용하여 NIC 또는 링크가 실패할 경우 연결을 즉시 마이그레이션함으로써 비용이 많이 드는 작업 재시작을 방지합니다.
- 대역폭 인식 부하 재분배: 라이브러리는 링크 용량을 지속적으로 모니터링하고 트래픽을 재조정하여 남아 있는 정상 경로를 최적 활용합니다.
- 탄력적인 집합 연산 알고리즘: 고전적인 집합 원시 연산(예: all‑reduce, broadcast)이 부분적인 네트워크 분할을 견디도록 재구현되었으며, 정확성을 손상시키지 않습니다.
- 포괄적인 평가: 두 대의 8‑GPU H100 서버와 대규모 시뮬레이션(수백 개 GPU)에서의 실험 결과, 현실적인 장애 패턴 하에서 훈련 오버헤드가 1 % 미만, 추론 오버헤드가 3 % 미만임을 보여줍니다.
- 기존 기술 대비 큰 속도 향상: R²CCL은 가장 근접한 오픈‑소스 솔루션(AdapCC와 DejaVu)보다 각각 복구 지연 시간에서 12배와 47배 빠릅니다.
Methodology
- Multi‑NIC exploitation: 현대 GPU 서버는 종종 여러 네트워크 인터페이스(예: 듀얼‑포트 InfiniBand)를 장착하고 제공됩니다. R²CCL은 모든 NIC를 MPI‑style 런타임에 등록하고 이를 교환 가능한 엔드포인트로 취급합니다.
- Rapid connection migration: NIC에서 오류가 보고되면 라이브러리는 즉시 해당 소켓을 해제하고 여분의 NIC에서 다시 연결을 설정합니다. 이때 작은 per‑connection 버퍼를 사용해 전송 중인 메시지를 보존합니다.
- Dynamic bandwidth profiling: 가벼운 백그라운드 스레드가 각 링크의 처리량을 측정합니다. 링크 성능이 저하되면 R²CCL은 집합 통신 트래픽을 재분배(예: all‑reduce 트리를 분할)하여 병목을 회피합니다.
- Resilient collectives: 저자들은 집합 알고리즘을 partition‑tolerant하게 재설계했습니다. 일부 참여자가 일시적으로 도달 불가능해지면, 알고리즘은 남은 노드로 진행하고, 실패한 경로가 복구되면 나중에 누락된 기여를 병합합니다.
- Simulation framework: 확장성을 테스트하기 위해 저자들은 GPU‑클러스터 토폴로지, 다양한 장애율 및 네트워크 지터를 모방하는 fault‑injection 시뮬레이터를 구축했습니다. 이를 통해 두 노드 하드웨어 설정을 넘어선 재현 가능한 스트레스 테스트가 가능해졌습니다.
결과 및 발견
| 시나리오 | 훈련 오버헤드 | 추론 오버헤드 | 복구 지연 시간 (ms) |
|---|---|---|---|
| 결함 없음 (baseline) | 0 % | 0 % | – |
| 단일 NIC 실패 (R²CCL) | 0.8 % | 2.4 % | ≈ 12 |
| 단일 NIC 실패 (AdapCC) | 9.6 % | 15.2 % | 145 |
| 단일 NIC 실패 (DejaVu) | 38 % | 51 % | 560 |
- 견고성: R²CCL은 시뮬레이션된 결함 주입 중 > 99 %에서 훈련 진행을 중단 없이 유지했습니다.
- 확장성: 256‑GPU 클러스터 시뮬레이션에서 라이브러리의 오버헤드는 서브‑선형적으로 증가했으며, 추가 bookkeeping이 병목이 되지 않음을 확인했습니다.
- 자원 효율성: R²CCL은 추가 프로세스를 생성하거나 전체 모델을 체크포인트하는 대신 기존 NIC를 재사용하므로 GPU 메모리와 저장소 사용량이 변하지 않습니다.
Practical Implications
- Reduced cloud costs: Cloud providers charge per GPU‑hour; cutting a 10 % waste translates directly into lower bills for LLM developers.
- Higher SLA compliance: For inference services (e.g., chatbots), the ability to survive a NIC glitch without dropping requests improves latency guarantees and user experience.
- Simplified ops: Engineers no longer need elaborate checkpoint‑and‑restart scripts for network failures; R²CCL handles recovery transparently, lowering operational complexity.
- Hardware‑agnostic resilience: The approach works with any multi‑NIC server (InfiniBand, RoCE, Ethernet), making it a drop‑in upgrade for existing PyTorch/DeepSpeed pipelines.
- Enables larger clusters: As clusters scale to thousands of GPUs, the probability of at least one network fault skyrockets; a library that mitigates that risk unlocks more aggressive scaling strategies.
제한 사항 및 향후 작업
- 다중 NIC 의존성: 단일 네트워크 인터페이스만을 가진 시스템은 R²CCL의 장애 조치(failover) 혜택을 받을 수 없습니다; 저자들은 대안으로 소프트웨어 기반 가상 NIC를 탐색할 것을 제안합니다.
- 부분적인 장애 커버리지: 현재 설계는 노드당 최소 하나의 NIC가 정상 작동한다고 가정합니다; 다중 NIC가 동시에 실패하면 작업이 중단됩니다.
- 통합 깊이: R²CCL은 독립형 라이브러리로 제공됩니다; 인기 프레임워크(NCCL, Horovod 등)와의 긴밀한 통합은 학습 곡선을 낮출 수 있습니다.
- 보안 고려 사항: NIC 간 자동 재연결은 새로운 공격 표면을 노출할 수 있습니다; 향후 작업에서는 핸드셰이크 프로토콜을 강화할 예정입니다.
저자
- Wei Wang
- Nengneng Yu
- Sixian Xiong
- Zaoxing Liu
논문 정보
- arXiv ID: 2512.25059v1
- 분류: cs.DC, cs.LG, cs.NI
- 출판일: 2025년 12월 31일
- PDF: PDF 다운로드