[Paper] FUSCO: 고성능 분산 데이터 셔플링을 위한 Transformation-Communication Fusion

발행: 1개월 전 (2025년 12월 26일 오후 11:16 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.22036v1

Overview

이 논문은 FUSCO라는 새로운 통신 라이브러리를 소개한다. FUSCO는 대규모 Mixture‑of‑Experts (MoE) 모델의 학습 및 추론에서 데이터‑셔플링 단계가 차지하는 시간을 단축하도록 설계되었다. 데이터 레이아웃 변환을 실제 네트워크 전송과 결합함으로써, 기존 시스템에서 전체 실행 시간의 절반 이상을 차지할 수 있는 통신 오버헤드를 크게 줄인다.

주요 기여

Transformation‑Communication Fusion: MoE의 expert‑major 레이아웃과 GPU 통신 프리미티브가 요구하는 device‑major 레이아웃 사이의 불일치를 감지하고, 레이아웃 변환을 송수신 연산과 결합합니다.
Pipelined Communication Engine: 다중 홉 경로를 따라 결합된 연산을 실행하여 네트워크와 계산 파이프라인을 지속적으로 활용하고, 유휴 시간을 방지합니다.
Lightweight Planning & Load Balancing: 중복 전송을 제거하고 트래픽을 디바이스 전반에 고르게 분산시키는 간결한 통신 계획을 생성하여 병목 현상을 예방합니다.
Performance Gains: 합성 벤치마크에서 NCCL 대비 최대 3.84×, DeepEP 대비 **2.01×**의 속도 향상을 보여주며, 실제 MoE 워크로드에서는 엔드‑투‑엔드 학습 지연을 1.10–1.39× 감소시킵니다.
Open‑Source Prototype: 기존 MoE 프레임워크에 바로 적용 가능한 대체 구현을 제공하며, 최소한의 코드 변경만 필요합니다.

방법론

레이아웃 분석: FUSCO는 먼저 MoE 게이팅 네트워크가 생성한 토큰‑투‑전문가 라우팅 맵을 검사합니다. 이 맵은 세밀한 “전문가‑우선” 순서를 보여줍니다 (전문가 E₁의 모든 토큰, 그 다음 E₂, …).
퓨전 플래닝: NCCL이 하는 것처럼 먼저 텐서를 “디바이스‑우선” 순서로 재배열한 뒤 전송하는 대신, FUSCO는 퓨전 플랜을 구축합니다. 이 플랜은 각 GPU에게 로컬 버퍼를 어떻게 슬라이스하고, 슬라이스를 실시간으로 변환하며, 직접 목표 디바이스로 푸시할지를 알려줍니다.
파이프라인 엔진: 플랜은 가벼운 런타임에 의해 실행되며 세 단계가 겹쳐 진행됩니다: (a) 로컬 데이터 추출, (b) 변환(예: 전치/리쉐이프), (c) 네트워크 전송/수신. 이러한 단계가 스트리밍 방식으로 처리되므로, 이전 슬라이스가 전송 중일 때 GPU는 다음 슬라이스 처리를 계속할 수 있습니다.
로드 밸런싱: 엔진은 디바이스별 트래픽을 모니터링하고, 사용률이 낮은 링크에 작은 “스필‑오버” 청크를 동적으로 재분배하여 단일 NIC가 과부하가 되지 않도록 합니다.
통합: FUSCO는 NCCL/DeepEP와 동일한 API 인터페이스를 제공하므로, 기존 MoE 코드베이스(예: DeepSpeed, Megatron‑LM)가 라우팅 로직을 다시 작성하지 않고도 백엔드를 교체할 수 있습니다.

결과 및 발견

Benchmark	Baseline (NCCL)	DeepEP	FUSCO	Speedup vs. NCCL	Speedup vs. DeepEP
Synthetic expert‑shuffle (64 GPUs)	1.24 s	0.62 s	0.32 s	3.84×	2.01×
GPT‑3‑style MoE training (128 GPUs)	1.87 s/step	1.71 s/step	1.48 s/step	1.26×	1.16×
Inference first‑token latency (32 GPUs)	12.4 ms	11.6 ms	10.8 ms	1.15×	1.07×

통신이 지배적: 프로파일링 결과 셔플링이 NCCL에서는 전체 단계 시간의 **≈55 %**를 차지하고, FUSCO에서는 **≈30 %**로 감소함.
확장성: 전문가와 GPU 수가 증가함에 따라 이득이 커지는데, 이는 융합이 O(N²) 데이터 재정렬 비용을 제거해 폭발적으로 증가하는 것을 방지하기 때문임.
최소 오버헤드: 계획 단계는 가장 큰 실행에서도 < 0.5 ms만 추가되어 “경량” 주장을 입증함.

실용적인 시사점

더 빠른 MoE 훈련 사이클: 팀은 통신에 의해 제한받지 않고 더 많은 전문가 수나 더 깊은 모델을 반복 실험할 수 있어 연구까지 걸리는 시간을 단축합니다.
클라우드 비용 절감: 단계당 실행 시간을 줄이면 GPU 사용 시간이 직접 감소하여, 특히 종량제 클라우드 제공업체에 큰 가치를 제공합니다.
추론 지연 시간 개선: 실시간 서비스(예: 대규모 언어 모델 API)는 첫 토큰 지연 시간이 감소함으로써 이점을 얻으며, MoE 기반 모델을 지연에 민감한 애플리케이션에서도 활용 가능하게 합니다.
즉시 적용 가능: FUSCO가 NCCL API를 그대로 모방하므로 기존 파이프라인(DeepSpeed, FairScale, Megatron‑LM)을 단일 라이브러리 교체만으로 통합할 수 있어 프로덕션 배포 장벽을 낮춥니다.
하드웨어에 구애받지 않는 이점: 이 접근 방식은 표준 RDMA/NCCL을 지원하는 모든 GPU에서 동작하므로 온프레미스 클러스터와 주요 클라우드 플랫폼 모두에서 활용할 수 있습니다.

제한 사항 및 향후 작업

정적 라우팅 가정 (단계별): FUSCO의 계획은 훈련 단계 동안 고정된 토큰‑전문가 매핑에 의존합니다. 단계 중간에 토큰‑별로 게이팅이 크게 변하면 재‑계획이 필요해 추가 비용이 발생합니다.
GPU‑to‑GPU 링크에 초점: 현재 프로토타입은 이기종 환경(예: CPU‑offload 또는 TPU 클러스터)을 다루지 않으며, 이러한 환경에서는 다른 변환 커널이 필요할 수 있습니다.
메모리 오버헤드: 융합 엔진은 실시간 전치를 위해 임시 버퍼를 유지합니다. 메모리가 제한된 GPU에서는 최대 배치 크기가 제한될 수 있습니다.
향후 방향: MoE 파이프라인에서 다른 집합 연산(전체‑감소, 브로드캐스트)으로 융합 개념을 확장하고, 런타임 트래픽 패턴에 반응하는 적응형 계획을 탐색하며, NVLink‑C2C, InfiniBand HDR 등 새로운 인터커넥트와 통합해 더 높은 처리량을 달성하는 방안을 모색합니다.

저자

Zhuoran Zhu
Chunyang Zhu
Hao Lin
Xu Fu
Yiming Zhou
Quanlu Zhang
Zhenhua Li
Feng Qian
Chao Yu
Boxun Li
Guohao Dai
Yu Wang

논문 정보

arXiv ID: 2512.22036v1
카테고리: cs.DC
출판일: 2025년 12월 26일
PDF: PDF 다운로드

[Paper] FUSCO: 고성능 분산 데이터 셔플링을 위한 Transformation-Communication Fusion

Overview

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 적응형 클라우드 아키텍처 제1 워크숍 논문집

[Paper] 불안정한 연결을 가진 이기종 네트워크에서 강인한 연합 파인튜닝: 집계 관점

[Paper] BLEST: Tensor Cores를 사용한 번개처럼 효율적인 BFS

[Paper] LIME: 메모리 제한 엣지 디바이스에서 협업 무손실 LLM 추론 가속