[Paper] MRC와 SRv6를 이용한 탄력적인 AI 슈퍼컴퓨터 네트워킹
Source: arXiv - 2605.04333v1
Overview
이 논문은 기본 패브릭에 혼잡이나 장애가 발생하더라도 대규모 AI‑훈련 클러스터가 원활하게 동작하도록 설계된 새로운 네트워킹 스택을 제시한다. 새로운 RDMA 전송 방식(MRC), 고정밀 다중 평면 Clos 토폴로지, 정적 SRv6 소스‑라우팅을 결합함으로써, 저자들은 100 K+ GPU에 이르는 클러스터에서 꼬리 지연을 줄이고 비용이 많이 드는 작업 재시작을 방지할 수 있음을 보여준다.
주요 기여
- MRC (Multipath RDMA Congestion‑aware) transport – 다중 경로 RDMA 기반 프로토콜로, 트래픽을 다수의 병렬 경로에 분산하고 동적으로 부하를 균형 맞춰 흐름 충돌을 제거합니다.
- Multi‑plane Clos topology – 고레디스 스위치를 활용해 대역폭과 내장 중복성을 모두 제공하는 2계층 네트워크 설계로, 단일 장애 지점 없이 초대형 클러스터를 가능하게 합니다.
- Static SRv6 source‑routing – 사전에 계산된 IPv6 세그먼트 라우팅 테이블로, MRC가 컨트롤러 개입 없이도 실패한 링크나 스위치를 자동으로 우회하도록 합니다.
- Production validation – OpenAI와 Microsoft의 가장 큰 학습 클러스터에 전체 스택을 배포하고 장기간 운영하여 최첨단 언어 모델 사전 학습 작업에 전력을 공급합니다.
- Quantitative evidence – 결합된 솔루션이 꼬리 지연을 감소시키고, 이전에는 학습이 중단되었을 네트워크 사고에서도 작업이 지속될 수 있음을 보여주는 정량적 증거.
방법론
-
MRC 설계 – 저자들은 표준 RDMA verbs 인터페이스에 경량 경로‑선택 엔진을 추가했습니다. 각 메시지는 “sprays” 로 분할되어 서로 겹치지 않는 경로 집합에 동시에 전송됩니다; 확인 응답은 혼잡 신호를 반환하고, 엔진은 혼잡한 링크에서 트래픽을 이동시키도록 합니다.
-
네트워크 토폴로지 구축 – 상용 64‑포트(또는 그 이상) 스위치를 사용해 다중 평면 Clos 패브릭을 구축했습니다: 여러 독립적인 스파인 레이어가 리프 스위치를 연결하여 각 리프가 다른 리프와 물리적으로 겹치지 않는 여러 경로를 가집니다.
-
정적 SRv6 라우팅 – 배포 전에 팀은 모든 가능한 단일 링크 또는 단일 스위치 장애에 대한 대체 우회 경로를 인코딩한 전체 세그먼트‑라우팅 헤더 집합을 계산했습니다. 이 헤더들은 NIC에 캐시되어 있어 MRC가 장애를 감지하면 미리 계산된 세그먼트 목록으로 간단히 전환합니다.
-
실험적 평가 – 실제 워크로드(BERT‑규모 및 GPT‑규모 사전 학습 작업)를 최대 120 K GPU 클러스터에서 실행했습니다. 저자들은 합성 장애(링크 끊김, 스위치 재부팅)를 주입하고 꼬리 지연, 작업 완료 시간, 작업 재시작 빈도를 측정했습니다.
-
비교 기준 – 결과를 반응형 라우팅(예: ECMP)과 수동 운영자 개입에 의존하는 전통적인 3계층 팻트리 네트워크 위의 기존 단일‑경로 RDMA와 비교했습니다.
Results & Findings
| 지표 | 기준 (fat‑tree) | MRC + SRv6 on multi‑plane Clos |
|---|---|---|
| 99번째 백분위수 지연 (단계당) | 2.8 ms | 0.9 ms |
| 작업 수준 중단 비율 (100 h당) | 4.3 % | 0.2 % |
| 평균 학습 처리량 (samples/s) | 1.0× | 1.35× |
| 단일 링크 장애 복구 시간 | ~30 s (수동) | < 2 s (자동) |
- Tail latency 가 경로 스프레이와 동적 로드‑밸런싱 덕분에 60 % 이상 감소했습니다.
- Job interruptions 가 크게 감소했으며, 대부분의 주입된 장애가 체크포인트 롤백 없이 흡수되었습니다.
- 정적 SRv6 테이블은 무시할 수 있는 오버헤드 (≈ 5 µs/패킷)만 추가하면서 즉시 장애 복구를 제공했습니다.
- 멀티‑플레인 Clos 설계는 전통적인 fat‑tree에 비해 ≈ 30 % 적은 스위치만으로 동일한 수의 GPU를 연결할 수 있게 하여 자본 비용과 전력 소비를 모두 줄였습니다.
실용적 함의
- AI 인프라 팀을 위해 – MRC와 SRv6를 도입하면 대규모 학습 파이프라인의 신뢰성을 크게 향상시켜 빈번한 체크포인팅 및 관련 스토리지 I/O 부하를 줄일 수 있습니다.
- 클라우드 제공업체를 위해 – 2계층 멀티플레인 Clos를 범용 고래디스 스위치로 구축할 수 있어, 전체 3계층 패브릭의 복잡성 없이 페타바이트 규모 인터커넥트를 비용 효율적으로 구현할 수 있습니다.
- 분산 학습 프레임워크 개발자를 위해 (예: PyTorch Distributed, DeepSpeed) – 전송 계층이 표준 RDMA verbs를 통해 노출되므로 기존 NCCL 기반 코드를 최소한의 수정으로 활용할 수 있습니다.
- 네트워크 운영자를 위해 – 정적 SRv6 라우팅은 장애 발생 시 빠른 반응형 제어 플레인 업데이트가 필요 없게 하여 운영을 단순화하고 라우팅 버그 위험을 감소시킵니다.
- 성능에 민감한 서비스 (예: 실시간 추론 클러스터)도 MRC의 낮은 꼬리 지연 특성을 활용해 엄격한 SLA 요구사항을 충족할 수 있습니다.
제한 사항 및 향후 연구
- 정적 라우팅 세분성 – SRv6 테이블이 단일 링크/스위치 장애를 다루지만, 동시에 발생하는 다중 장애 상황에서는 여전히 동적 재계산이 필요할 수 있습니다.
- 경로 선택 상태의 확장성 – NIC에서 흐름별 혼잡 메트릭을 유지하는 것이 매우 많은 연결 수에서 병목이 될 수 있으며, 저자들은 차후 단계로 계층적 집계를 제안합니다.
- 하드웨어 의존성 – 전체 이점을 얻으려면 맞춤형 RDMA verb와 SRv6 오프로드를 지원하는 NIC가 필요하며, 구형 장치는 기본 동작으로 되돌아갑니다.
- 이질적인 워크로드에 대한 평가 – 본 연구는 동기식 데이터 병렬 학습에 초점을 맞추었으며, 모델 병렬 또는 파이프라인 병렬 방식으로 접근을 확장하는 것은 아직 미해결 과제입니다.
저자들은 머신러닝 기반 장애 예측에 의해 구동되는 적응형 SRv6 업데이트를 탐구하고, 보다 넓은 커뮤니티 채택을 위해 경량 MRC 라이브러리를 오픈소스화할 계획입니다.
저자
- Joao Araujo
- Alex Chow
- Mark Handley
- Ryder Lewis
- Christoph Paasch
- Jitendra Padhye
- Michael Papamichael
- Greg Steinbrecher
- Amin Tootoonchian
- Lihua Yuan
- S. Anantharamu
- Abhishek Dosi
- Mohit Garg
- Mahdieh Ghazi
- Torsten Hoefler
- Deepal Jayasinghe
- Jithin Jose
- Abdul Kabbani
- Guohan Lu
- Yang Wang
- K. Doddapaneni
- Murali Garimella
- Vipin Jain
- Yanfang Le
- H. Nagulapalli
- S. Narayanan
- Rong Pan
- Rathina Sabesan
- Raghava Sivaramu
- Rip Sohan
- Eric Davis
- Dragos Dumitrescu
- Mohan Kalkunte
- Bhaswar Mitra
- Guglielmo Morandin
- Adrian Popa
- Costin Raiciu
- Eric Spada
- John Spillane
- Niranjan Vaidya
- Aviv Barnea
- Idan Burstein
- Elazar Cohen
- Yamin Friedman
- Noam Katz
- Masoud Moshref
- Yuval Shpigelman
- Shahaf Shuler
- Shy Shyman
- Sayantan Sur
논문 정보
- arXiv ID: 2605.04333v1
- 카테고리: cs.NI, cs.AI, cs.DC
- 출판일: 2026년 5월 5일
- PDF: PDF 다운로드