NVIDIA Spectrum‑X — 오픈 AI‑네이티브 이더넷 패브릭 — Gigascale AI에 대한 표준을 정립하고, 이제 MRC와 함께
Source: NVIDIA AI Blog
세계에서 가장 강력한 AI 공장을 구축하려는 경쟁은 AI 자체의 야망에 발맞출 수 있는 네트워킹을 요구합니다. NVIDIA Spectrum‑X Ethernet 스케일‑아웃 인프라는 오늘날 사용 가능한 가장 진보된 AI 네트워킹 기술로, 성능, 복원력 또는 확장성에서 타협할 수 없는 업계 리더들에 의해 배치되고 있습니다.
여기에 OpenAI, Microsoft, 그리고 Oracle이 포함됩니다.
멀티패스 신뢰성 연결 (MRC)
- MRC가 하는 일 – 단일 RDMA 연결이 트래픽을 여러 네트워크 경로에 분산시켜 대규모 AI 학습 인프라의 처리량, 부하‑분산 및 가용성을 향상시킵니다.
- 비유 – 마을을 가로지르는 단일 차선 도로를 정교하게 설계된 거리 격자와 실시간 교통 앱이 결합된 시스템으로 교체하는 것과 같습니다. 이를 통해 운전자는 정체나 도로 폐쇄를 우회할 수 있습니다.
“Blackwell 세대에서 MRC를 도입한 것은 매우 성공적이었으며, 이는 NVIDIA와의 강력한 협업 덕분에 가능했습니다,” 라고 OpenAI 산업 컴퓨팅 책임자 Sachin Katti가 말했습니다.
“MRC의 엔드‑투‑엔드 접근 방식 덕분에 일반적인 네트워크 관련 지연 및 중단을 크게 피할 수 있었고, 대규모 최첨단 학습 실행의 효율성을 유지할 수 있었습니다.”
협업 하이라이트
- Microsoft & NVIDIA – 차세대 AI에 필요한 인프라를 발전시키는 데 초점을 맞춘 오랜 파트너십.
- Microsoft의 Fairwater와 Oracle Cloud Infrastructure (OCI) Abilene 데이터 센터 – 최첨단 LLM을 학습 및 배포하기 위해 특별히 구축된 가장 큰 AI 팩토리 중 두 곳으로, 모두 성능, 규모 및 효율성 요구 사항을 충족하기 위해 MRC를 활용합니다.
- NVIDIA Spectrum‑X Ethernet – 대규모 AI 모델 및 애플리케이션을 안정적으로 실행할 수 있는 네트워크 기반을 제공합니다.
MRC는 NVIDIA Spectrum‑X Ethernet 하드웨어에서 최초로 생산 환경에서 검증되었으며, 현재는 Open Compute Project를 통해 오픈 사양으로 공개되었습니다: OCP MRC 1.0 PDF.
MRC와 Spectrum‑X Ethernet이 중요한 이유
| 기능 | 이점 |
|---|---|
| 모든 경로에 걸친 부하 분산 | 학습 실행 전체 동안 GPU 활용도를 높게 유지합니다. |
| 동적 혼잡 회피 | 혼잡 상황에서도 과부하된 경로를 자동으로 회피하여 트래픽을 유도함으로써 높은 대역폭을 유지합니다. |
| 지능형 재전송 | 데이터 손실에 대한 빠르고 정확한 복구를 제공하여 장기 작업에 미치는 영향을 최소화하고 GPU 유휴 시간을 방지합니다. |
| 세밀한 가시성 및 제어 | 운영을 간소화하고 대규모 환경에서 문제 해결을 가속화합니다. |
| 하드웨어 수준 장애 우회 | 마이크로초 단위로 경로 장애를 감지하고 트래픽을 자동으로 재라우팅하여 수천 개의 GPU를 동기화된 상태로 유지합니다. |
| 멀티플레인 네트워크 지원 | 여러 독립적인 패브릭(플레인)이 대체 통신 경로를 제공하며, Spectrum‑X 멀티플레인 기능은 플레인 간 하드웨어 가속 부하 분산을 추가하여 낮은 지연 시간을 유지하면서 수십만 개의 GPU까지 확장할 수 있습니다. |
전송 모델 유연성
Spectrum‑X Ethernet를 사용하면 고객은 워크로드에 가장 적합한 RDMA 전송 모델을 선택할 수 있습니다:
- Adaptive RDMA (Spectrum‑X Ethernet 기본)
- MRC (다중 경로 신뢰 연결)
- Custom protocols (필요에 따라)
모두 기본적으로 다음에서 실행됩니다:
- NVIDIA ConnectX SuperNICs – Product page
- Spectrum‑X Ethernet switches – Product page
Adaptive RDMA와 MRC 모두 기가스케일 멀티플레인 네트워크 설계를 지원하여 고객이 특정 AI 워크로드에 적합한 전송 방식을 선택할 유연성을 제공합니다.
오픈 스탠다드 및 산업 협업
AI 공장이 계속 확장됨에 따라 네트워크는 지능적이고, 복원력이 있으며, 오픈 스탠다드 기반이어야 합니다. NVIDIA Spectrum‑X Ethernet은 이 세 가지를 모두 충족하며, MRC와 함께 고급 AI 네트워킹의 기준을 지속적으로 설정하고 있습니다.
NVIDIA는 AMD, Broadcom, Intel, Microsoft, OpenAI와 함께 MRC 개발에 협력했습니다.
자세히 알아보기
- NVIDIA Spectrum‑X Ethernet – 공식 웹페이지
- MRC 백서 (PDF) – MRC 및 SRv6를 활용한 탄력적인 AI 슈퍼컴퓨터 네트워킹
- Open Compute Project 사양 – OCP MRC 1.0
소프트웨어 제품 정보에 관한 공지사항을 참조하십시오.