[Paper] FUSCO: 고성능 분산 데이터 셔플링을 위한 Transformation-Communication Fusion

발행: (2025년 12월 26일 오후 11:16 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.22036v1

Overview

이 논문은 FUSCO라는 새로운 통신 라이브러리를 소개한다. FUSCO는 대규모 Mixture‑of‑Experts (MoE) 모델의 학습 및 추론에서 데이터‑셔플링 단계가 차지하는 시간을 단축하도록 설계되었다. 데이터 레이아웃 변환을 실제 네트워크 전송과 결합함으로써, 기존 시스템에서 전체 실행 시간의 절반 이상을 차지할 수 있는 통신 오버헤드를 크게 줄인다.

주요 기여

  • Transformation‑Communication Fusion: MoE의 expert‑major 레이아웃과 GPU 통신 프리미티브가 요구하는 device‑major 레이아웃 사이의 불일치를 감지하고, 레이아웃 변환을 송수신 연산과 결합합니다.
  • Pipelined Communication Engine: 다중 홉 경로를 따라 결합된 연산을 실행하여 네트워크와 계산 파이프라인을 지속적으로 활용하고, 유휴 시간을 방지합니다.
  • Lightweight Planning & Load Balancing: 중복 전송을 제거하고 트래픽을 디바이스 전반에 고르게 분산시키는 간결한 통신 계획을 생성하여 병목 현상을 예방합니다.
  • Performance Gains: 합성 벤치마크에서 NCCL 대비 최대 3.84×, DeepEP 대비 **2.01×**의 속도 향상을 보여주며, 실제 MoE 워크로드에서는 엔드‑투‑엔드 학습 지연을 1.10–1.39× 감소시킵니다.
  • Open‑Source Prototype: 기존 MoE 프레임워크에 바로 적용 가능한 대체 구현을 제공하며, 최소한의 코드 변경만 필요합니다.

방법론

  1. 레이아웃 분석: FUSCO는 먼저 MoE 게이팅 네트워크가 생성한 토큰‑투‑전문가 라우팅 맵을 검사합니다. 이 맵은 세밀한 “전문가‑우선” 순서를 보여줍니다 (전문가 E₁의 모든 토큰, 그 다음 E₂, …).

  2. 퓨전 플래닝: NCCL이 하는 것처럼 먼저 텐서를 “디바이스‑우선” 순서로 재배열한 뒤 전송하는 대신, FUSCO는 퓨전 플랜을 구축합니다. 이 플랜은 각 GPU에게 로컬 버퍼를 어떻게 슬라이스하고, 슬라이스를 실시간으로 변환하며, 직접 목표 디바이스로 푸시할지를 알려줍니다.

  3. 파이프라인 엔진: 플랜은 가벼운 런타임에 의해 실행되며 세 단계가 겹쳐 진행됩니다: (a) 로컬 데이터 추출, (b) 변환(예: 전치/리쉐이프), (c) 네트워크 전송/수신. 이러한 단계가 스트리밍 방식으로 처리되므로, 이전 슬라이스가 전송 중일 때 GPU는 다음 슬라이스 처리를 계속할 수 있습니다.

  4. 로드 밸런싱: 엔진은 디바이스별 트래픽을 모니터링하고, 사용률이 낮은 링크에 작은 “스필‑오버” 청크를 동적으로 재분배하여 단일 NIC가 과부하가 되지 않도록 합니다.

  5. 통합: FUSCO는 NCCL/DeepEP와 동일한 API 인터페이스를 제공하므로, 기존 MoE 코드베이스(예: DeepSpeed, Megatron‑LM)가 라우팅 로직을 다시 작성하지 않고도 백엔드를 교체할 수 있습니다.

결과 및 발견

BenchmarkBaseline (NCCL)DeepEPFUSCOSpeedup vs. NCCLSpeedup vs. DeepEP
Synthetic expert‑shuffle (64 GPUs)1.24 s0.62 s0.32 s3.84×2.01×
GPT‑3‑style MoE training (128 GPUs)1.87 s/step1.71 s/step1.48 s/step1.26×1.16×
Inference first‑token latency (32 GPUs)12.4 ms11.6 ms10.8 ms1.15×1.07×
  • 통신이 지배적: 프로파일링 결과 셔플링이 NCCL에서는 전체 단계 시간의 **≈55 %**를 차지하고, FUSCO에서는 **≈30 %**로 감소함.
  • 확장성: 전문가와 GPU 수가 증가함에 따라 이득이 커지는데, 이는 융합이 O(N²) 데이터 재정렬 비용을 제거해 폭발적으로 증가하는 것을 방지하기 때문임.
  • 최소 오버헤드: 계획 단계는 가장 큰 실행에서도 < 0.5 ms만 추가되어 “경량” 주장을 입증함.

실용적인 시사점

  • 더 빠른 MoE 훈련 사이클: 팀은 통신에 의해 제한받지 않고 더 많은 전문가 수나 더 깊은 모델을 반복 실험할 수 있어 연구까지 걸리는 시간을 단축합니다.
  • 클라우드 비용 절감: 단계당 실행 시간을 줄이면 GPU 사용 시간이 직접 감소하여, 특히 종량제 클라우드 제공업체에 큰 가치를 제공합니다.
  • 추론 지연 시간 개선: 실시간 서비스(예: 대규모 언어 모델 API)는 첫 토큰 지연 시간이 감소함으로써 이점을 얻으며, MoE 기반 모델을 지연에 민감한 애플리케이션에서도 활용 가능하게 합니다.
  • 즉시 적용 가능: FUSCO가 NCCL API를 그대로 모방하므로 기존 파이프라인(DeepSpeed, FairScale, Megatron‑LM)을 단일 라이브러리 교체만으로 통합할 수 있어 프로덕션 배포 장벽을 낮춥니다.
  • 하드웨어에 구애받지 않는 이점: 이 접근 방식은 표준 RDMA/NCCL을 지원하는 모든 GPU에서 동작하므로 온프레미스 클러스터와 주요 클라우드 플랫폼 모두에서 활용할 수 있습니다.

제한 사항 및 향후 작업

  • 정적 라우팅 가정 (단계별): FUSCO의 계획은 훈련 단계 동안 고정된 토큰‑전문가 매핑에 의존합니다. 단계 중간에 토큰‑별로 게이팅이 크게 변하면 재‑계획이 필요해 추가 비용이 발생합니다.
  • GPU‑to‑GPU 링크에 초점: 현재 프로토타입은 이기종 환경(예: CPU‑offload 또는 TPU 클러스터)을 다루지 않으며, 이러한 환경에서는 다른 변환 커널이 필요할 수 있습니다.
  • 메모리 오버헤드: 융합 엔진은 실시간 전치를 위해 임시 버퍼를 유지합니다. 메모리가 제한된 GPU에서는 최대 배치 크기가 제한될 수 있습니다.
  • 향후 방향: MoE 파이프라인에서 다른 집합 연산(전체‑감소, 브로드캐스트)으로 융합 개념을 확장하고, 런타임 트래픽 패턴에 반응하는 적응형 계획을 탐색하며, NVLink‑C2C, InfiniBand HDR 등 새로운 인터커넥트와 통합해 더 높은 처리량을 달성하는 방안을 모색합니다.

저자

  • Zhuoran Zhu
  • Chunyang Zhu
  • Hao Lin
  • Xu Fu
  • Yiming Zhou
  • Quanlu Zhang
  • Zhenhua Li
  • Feng Qian
  • Chao Yu
  • Boxun Li
  • Guohao Dai
  • Yu Wang

논문 정보

  • arXiv ID: 2512.22036v1
  • 카테고리: cs.DC
  • 출판일: 2025년 12월 26일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »