[논문] 초대규모 인터커넥션 네트워크
개요
이 논문은 수십만 대의 서버까지 확장 가능하면서도 지연 시간을 낮게 유지하고 비용 경쟁력을 갖춘 차세대 Leaf‑Spine 상호 연결 구조를 조사한다. 두 개의 덜 알려진 토폴로지인 Orthogonal Fat‑Tree와 Random Folded Clos를 확장하여 **Multipass Random Leaf‑Spine (MRLS)**을 제안한다. MRLS는 대규모 집합 통신에서 기존 Fat‑Tree 및 Dragonfly 설계보다 뛰어난 성능을 보인다.
주요 기여
- 새 토폴로지 계열 (MRLS): Leaf‑Spine 설계의 규칙성을 유지하면서 무작위 연결을 도입해 대역폭과 내결함성을 향상시킨다.
- 분석적 비교: MRLS가 Orthogonal Fat‑Tree와 Random Folded Clos의 확장성을 물려받으면서 Fat‑Tree보다 높은 절반 대역폭을 제공함을 보여준다.
- 라우팅 혁신: MRLS의 경로 다양성을 활용하는 여러 비최소 라우팅 기법(예: Valiant, multipass, adaptive)을 평가한다.
- 포괄적 시뮬레이션 연구: 고충실도 상호 연결 네트워크 시뮬레이터를 사용해 현실적인 트래픽 혼합(All‑to‑All, incast, random)에서 MRNS를 Fat‑Tree 및 Dragonfly와 벤치마크한다.
- 성능 향상: 100 k 노드 All‑to‑All 집합 통신에서 Fat‑Tree 대비 최대 50 %, Dragonfly 대비 **최대 100 %**의 속도 향상을 입증한다.
방법론
- 토폴로지 구성 – Orthogonal Fat‑Tree(결정적, 지름이 큼)와 Random Folded Clos(확률적, 지름이 짧음)를 출발점으로 하여 MRLS 그래프를 생성한다:
- 서버에 직접 연결되는 leaf 스위치를 배치한다.
- 각 leaf가 여러 개의 서로 다른 spine을 볼 수 있도록 무작위 순열된 링크로 leaf를 interconnect하는 spine 스위치를 추가한다.
- 라우팅 전략 – 연구에서는 다음을 구현한다:
- 최단 경로(최소) 라우팅을 기준선으로 사용.
- 부하 균형을 위한 Valiant 라우팅(무작위 중간 홉).
- 적응형 부하 분배를 위한 Multipass 라우팅(패킷당 여러 후보 경로 평가).
- 시뮬레이션 환경 – 패킷 수준 시뮬레이터가 링크 대역폭, 스위치 버퍼 크기, 현실적인 트래픽 패턴을 모델링한다. 실험은 10 k~100 k 엔드포인트 규모로 확장되며 지연 시간, 처리량, 집합 연산 완료 시간을 측정한다.
- 평가지표 – 주요 지표는 절반 대역폭, 평균 홉 수, 테일 지연, 집합 연산 실행 시간이다.
결과 및 고찰
| 지표 | Fat‑Tree | Dragonfly | MRLS (최적 라우팅) |
|---|---|---|---|
| 절반 대역폭(스파인당) | 기준 | 약 1.2× Fat‑Tree | 1.5× Fat‑Tree |
| 평균 홉 수(All‑to‑All) | 4.2 | 3.8 | 3.2 |
| 99번째 백분위 지연(µs) | 12.5 | 9.8 | 7.1 |
| All‑to‑All 실행 시간(100 k 노드) | 1.0 s (정규화) | 0.9 s | 0.5 s |
- 처리량: MRLS는 균일 무작위 트래픽 하에서 Fat‑Tree 대비 **최대 1.8×**의 집계 처리량을 유지한다.
- 확장성: 스파인을 추가하면 깊이가 증가하지 않아도 대역폭이 선형적으로 증가하고, Fat‑Tree처럼 깊이가 늘어나 홉 수가 크게 증가하지 않는다.
- 내구성: 무작위 스파인 연결 덕분에 점진적인 성능 저하가 발생한다; 스파인 10 % 손실 시 성능 감소가 <5 %에 머문다.
- 라우팅 영향: Multipass 적응형 라우팅이 가장 큰 이득을 제공한다. 특히 버스트형 incast 워크로드에서 혼잡한 스파인을 회피해 동적으로 트래픽을 전환한다.
실용적 함의
- 데이터센터 설계자는 MRLS를 채택해 초대형 클러스터(예: AI 학습 팜)를 구축할 수 있다. 깊은 Fat‑Tree에서 흔히 발생하는 케이블 폭발 문제를 완화한다.
- 비용 효율성: 계층 수가 감소함에 따라 스위치 수와 케이블 길이가 줄어들어 CAPEX와 OPEX 모두 절감된다.
- 소프트웨어 스택 호환성: MRLS는 기존 Ethernet/InfiniBand 인프라와 호환되며, 라우팅 알고리즘은 최신 스마트 NIC 또는 프로그래머블 스위치(P4 등)에 구현 가능하다.
- 클라우드 제공업체는 집합 연산 성능 향상을 제공하는 토폴로지를 얻어 Horovod, DeepSpeed와 같은 분산 학습 프레임워크와 Spark, Flink와 같은 대규모 데이터 분석에 직접적인 이점을 제공한다.
- 내결함성: 무작위 스파인 링크는 네트워크를 본질적으로 장애에 강하게 만들며, 유지보수를 단순화하고 SLA 보장을 향상시킨다.
제한점 및 향후 연구
- 물리적 배치 고려사항(랙 배치, 케이블 길이 제한)은 추상화했으며, 실제 배포 시 추가적인 레이아웃 최적화가 필요할 수 있다.
- 연구는 합성 트래픽 패턴에 초점을 맞췄으므로, 실제 운영 워크로드(예: AI 학습 + 스토리지 트래픽 혼합)와의 평가가 남아 있다.
- Multipass 라우팅의 오버헤드가 스위치 ASIC 복잡성을 증가시킬 수 있다; 향후 경량화된 근사법이나 하드웨어 가속 구현을 탐색해야 한다.
- 이기종 엔드포인트(GPU, TPU, 스토리지 노드)와 QoS 메커니즘을 통합하는 분석 확대가 제안된다.
핵심 요약: MRLS는 극한 규모 데이터센터를 위한 기존 Fat‑Tree 및 Dragonfly 설계에 대한 설득력 있는 대안으로, 지연 시간과 처리량에서 실질적인 향상을 제공하면서도 네트워크 구조를 실용적인 수준으로 유지한다. 대규모 분산 시스템을 구축하는 개발자는 차세대 데이터센터 인프라의 흐름을 주시할 필요가 있다.
저자
- Alejandro Cano
- Cristina Brinza
- Cristóbal Camarero
- Carmen Martínez
- Ramón Beivide
논문 정보
- arXiv ID: 2605.26960v1
- 분류: cs.NI, cs.DC
- 발표일: 2026년 5월 26일
- PDF: PDF 다운로드