[Paper] FlashOverlap: 분산 LLM 학습을 위한 통신 오버랩에서 테일 레이턴시 최소화

발행: 2일 전 (2026년 4월 27일 PM 12:48 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2604.24013v1

개요

오늘날의 거대한 언어 모델을 학습하려면 작업을 다수의 GPU 또는 기타 가속기에 분산해야 하지만, 그 결과 발생하는 데이터 이동이 심각한 병목 현상이 될 수 있습니다. FlashOverlap는 통신과 연산을 겹치게 하는 새로운 방식을 제안하여 기존 슬라이스 기반 겹침 방식에서 발생하는 “테일 레이턴시” 문제를 제거하고, 더 빠르고 효율적인 분산 LLM 학습을 제공합니다.

주요 기여

Flash‑Overlap 알고리즘 – 무거운 집합 연산(reduce‑scatter, all‑gather)을 일련의 세밀한 피어‑투‑피어(P2P) 전송으로 대체하여 계산과 겹쳐 수행할 수 있게 함.
정확한 지연‑최적 스케줄링 – 이전 겹침 방법에서 관찰된 긴 꼬리 지연을 제거하는, 증명 가능한 최적 스케줄을 제공함.
광범위한 호환성 – 순수 데이터 병렬 학습은 물론 Tensor‑Parallelism (TPSP) 및 Unified Parallelism (UP)과 같은 텐서 병렬 전략에서도 동작함.
실증적 성과 – 전체 스텝 시간의 일관된 감소, 높은 모델 FLOPS 활용도(MFU), 그리고 다양한 모델 크기와 하드웨어 구성에서 향상된 처리량을 보여줌.

Methodology

Decompose Collectives – Instead of issuing a single collective call, Flash‑Overlap breaks it into a set of directed P2P messages (e.g., point‑to‑point sends/receives). This gives the runtime fine control over when each piece of data moves.
Partitioned Computation – The forward/backward kernels are split into smaller sub‑tasks that operate on the same tensor slices that are being communicated.
Latency‑Optimal Scheduler – An analytical model evaluates the dependency graph of P2P transfers and compute fragments, then produces a schedule that maximizes overlap while guaranteeing that no sub‑task waits for the “last” piece of data (the tail).
Integration Layer – The authors wrap the scheduler inside popular deep‑learning frameworks (PyTorch + NCCL) so that existing training scripts can switch to Flash‑Overlap with minimal code changes.

The approach is deliberately kept implementation‑friendly: it relies only on standard P2P primitives already exposed by NCCL, MPI, or custom interconnect libraries, and does not require hardware modifications.

결과 및 발견

설정	기준 (Collective Overlap)	Flash‑Overlap	Δ 지연	MFU ↑	처리량 ↑
8‑GPU GPT‑2 (1.5B)	112 ms/step	84 ms/step	−25%	+12%	+10%
16‑GPU LLaMA‑7B (TPSP)	210 ms/step	158 ms/step	−25%	+15%	+13%
32‑GPU UL2 (UP)	340 ms/step	255 ms/step	−25%	+18%	+16%

꼬리 지연 제거 – 가장 오래 기다리는 통신 조각이 거의 0에 가깝게 감소하여 단계 시간 분포가 평탄해집니다.
MFU 상승 – GPU의 연산 용량이 더 많이 사용되어 자원 활용도가 향상되었습니다.
다양한 병렬화 방식에 걸친 확장성 – 순수 데이터 병렬뿐 아니라 혼합 텐서 병렬 구성에서도 동일한 이득을 확인했습니다.

Practical Implications

Faster model iteration – 팀은 하드웨어를 추가하지 않고도 훈련 시간을 최대 25%까지 단축할 수 있어 연구 주기와 제품 개발을 가속화합니다.
Cost savings – 단계 시간이 감소하면 클라우드‑GPU 비용이 직접 낮아지며, 특히 통신 비용이 큰 비중을 차지하는 다중‑노드 실행에서 효과적입니다.
Simplified scaling – Flash‑Overlap가 기존 P2P 프리미티브와 호환되므로, 이미 NCCL/MPI를 실행 중인 클러스터라면 어디서든 적용 가능해 대규모 LLM 파이프라인에 바로 적용할 수 있는 업그레이드가 됩니다.
Inference benefits – 동일한 오버랩 기법을 텐서‑패럴렐 추론에 적용하면, 대규모 모델을 프로덕션에서 서비스할 때 지연 시간을 감소시킵니다.

제한 사항 및 향후 작업

네트워크 토폴로지 의존성 – 최적 스케줄은 비교적 균일한 대역폭을 가정합니다; 이기종 인터커넥트(예: 혼합 Ethernet/InfiniBand)가 많이 섞인 경우 맞춤 튜닝이 필요할 수 있습니다.
커널 분할 오버헤드 – 큰 커널을 분할하면 약간의 관리 비용이 발생합니다; 매우 작은 모델의 경우 이점이 감소합니다.
프레임워크 통합 깊이 – 현재 프로토타입은 PyTorch를 목표로 합니다; TensorFlow나 JAX로 확장하려면 추가 엔지니어링이 필요합니다.

향후 방향에는 자동 토폴로지 인식 스케줄 생성, 새로운 통신 라이브러리(e.g., NCCL‑3)와의 tighter integration, 실시간 대역폭 측정에 기반해 collective와 P2P 모드 사이를 전환하는 적응형 런타임 결정 탐색이 포함됩니다.

FlashOverlap는 통신과 계산을 어떻게 교차시킬지를 재고하는 것이—개별 피어‑투‑피어 메시지 수준까지—오늘날 훈련되는 가장 큰 언어 모델에 대해 측정 가능한 성능 향상을 가져올 수 있음을 보여줍니다. 대규모 훈련 클러스터를 관리하는 개발자에게 이 기법은 지연 시간을 줄이고 처리량을 높이는 실용적이며 하드웨어에 구애받지 않는 레버를 제공합니다.

저자

Rezaul Karim
Austin Wen
Wang Zongzuo
Weiwei Zhang
Yang Liu
Walid Ahmed

논문 정보

arXiv ID: 2604.24013v1
분류: cs.LG, cs.CV, cs.DC
출판일: 2026년 4월 27일
PDF: PDF 다운로드

[Paper] FlashOverlap: 분산 LLM 학습을 위한 통신 오버랩에서 테일 레이턴시 최소화

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 보행자를 놓치지 않는다: Real-Time Detection and Tracking of Vulnerable Road Users for Adaptive Traffic Signal Control

[Paper] SIEVES: 선택적 예측은 시각적 증거 스코어링을 통해 일반화된다

[Paper] Black-box Few-shot Knowledge Distillation에서 다양성 향상

[Paper] Black-box Data-free Knowledge Distillation을 위한 Diverse Image Priors