[Paper] Lagom: 분산 LLM 훈련을 위한 통신 및 계산 겹침의 힘 발휘
Source: arXiv - 2602.20656v1
위에 있는 소스 링크 아래에 번역하고자 하는 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. 부탁드립니다.
Overview
이 논문은 Lagom이라는 시스템을 소개합니다. 이 시스템은 대규모 언어 모델(LLM)의 분산 학습 중 통신과 계산을 지능적으로 겹쳐 수행합니다. 통신 매개변수를 공동으로 조정함으로써 Lagom은 네트워크와 GPU 중 어느 쪽도 병목이 되지 않는 최적점을 자동으로 찾아내며, 고대역폭 및 저대역폭 GPU 클러스터 모두에서 측정 가능한 속도 향상을 제공합니다.
주요 기여
- 통합 비용 모델 – 컴퓨팅 비용과 통신 비용을 모두 포착하는 단일 분석 모델로, 다양한 병렬화 전략을 직접 비교할 수 있게 함.
- 우선순위 기반 탐색 알고리즘 – 가능한 파라미터 설정의 조합 폭을 지수 시간에서 선형 시간으로 감소시켜, 런타임 튜닝을 실용적으로 만듦.
- 통신 파라미터 공동 튜닝 – 메시지 크기, 집계 깊이, 스케줄링 우선순위를 동시에 조정하여 GPU를 바쁘게 유지하면서 네트워크는 백그라운드에서 작동하도록 함.
- 광범위한 평가 – 100 Gbps 및 25 Gbps GPU 클러스터에서 다양한 LLM(GPT‑2, BERT, T5) 및 병렬화 방식(데이터, 텐서, 파이프라인)에 걸쳐 일관된 속도 향상(1.03‑1.33×)을 입증.
- 오픈소스 프로토타입 – 구현은 NCCL/AutoCCL을 기반으로 하며, 최소한의 코드 변경으로 기존 PyTorch/Docker 파이프라인에 삽입 가능.
방법론
-
프로파일링 단계 – Lagom은 대상 클러스터에서 짧은 마이크로‑벤치마크를 실행하여 원시 연산 처리량(FLOP/초)과 네트워크 특성(지연 시간, 대역폭, 혼잡)을 측정합니다.
-
비용 모델링 – 이러한 측정값을 사용해 시스템은 다음과 같은 비용 방정식을 구성합니다:
[ \text{Total Time} = \frac{\text{Compute Work}}{\text{Compute Rate}} + \frac{\text{Comm Volume}}{\text{Effective Bandwidth}} + \text{Overlap Penalty} ]
여기서 “overlap penalty”는 통신이 연산 파이프라인을 얼마나 정지시키는지를 정량화합니다.
-
파라미터 공간 정의 – Lagom은 조정 가능한 노브 집합을 정의합니다:
- 청크 크기 (몇 개의 텐서를 함께 패킹할지)
- 집계 깊이 (몇 단계의 축소 연산을 파이프라인할지)
- 우선순위 레벨 (어떤 텐서를 먼저 전송할지)
-
우선순위 기반 탐색 – 모든 조합을 전부 열거하는 대신, Lagom은 비용 모델에 대한 한계 영향을 기준으로 노브를 순위 매기고 가장 유망한 것부터 탐욕적으로 탐색합니다. 한계 이득이 임계값 이하로 떨어지면 탐색을 중단하여 선형 실행 시간을 보장합니다.
-
런타임 적응 – 학습 중에 Lagom은 실제 겹침 효율성을 모니터링하고, 워크로드나 네트워크 상황이 변하면 검색을 다시 호출할 수 있습니다.
결과 및 발견
| 클러스터 | 모델 / 병렬성 | 기준 (NCCL) | 기준 (AutoCCL) | Lagom |
|---|---|---|---|---|
| 100 Gbps (8×A100) | GPT‑2, tensor parallel 8 | 1.00× | 1.08× | 1.33× |
| 25 Gbps (4×V100) | BERT, pipeline 4 | 1.00× | 1.03× | 1.27× |
| Mixed (data + tensor) | T5, 16‑GPU | 1.00× | 1.07× | 1.20× |
- 통신 제한 영역(대규모 텐서 병렬 정도)에서는 Lagom이 더 많은 텐서를 더 적은 네트워크 호출에 묶을 수 있어 가장 큰 향상을 보였습니다.
- 연산 제한 영역도 여전히 이점을 얻었으며(≈3‑7 % 속도 향상), 가끔 발생하는 네트워크 정체로 인한 GPU 유휴 시간을 감소시켰습니다.
- 선형 시간 탐색은 전체 학습 시간에 < 2 %의 오버헤드만 추가되어 실용성을 확인했습니다.
실용적인 시사점
- 더 빠른 모델 반복 – 팀은 새로운 하드웨어를 구입하지 않고도 수주에 걸친 LLM 사전 학습 시간을 며칠 단축할 수 있습니다.
- 클라우드 비용 절감 – 더 나은 겹침(overlap)은 GPU 시간 소비를 줄이며, 특히 네트워크 품질이 변동하는 스팟 인스턴스 풀에서 효과적입니다.
- 운용 간소화 – Lagom의 자동 튜닝은 64‑GPU 팟으로 확장하는 DevOps 엔지니어에게 골칫거리인 NCCL 파라미터의 수동 “핸드‑튜닝” 필요성을 없앱니다.
- 이식성 – Lagom은 표준 NCCL/AutoCCL 위에서 동작하므로 기존 PyTorch
torch.distributed스크립트에lagom.init()한 번 호출만으로 통합할 수 있습니다. - 특수 상황 – 저대역폭 온프레미스 클러스터(예: 10 Gbps 이더넷)에서 Lagom이 중요한 그래디언트를 우선순위화하는 능력은 단순 스케일링으로는 발산할 수 있는 상황에서도 학습을 안정적으로 유지합니다.
제한 사항 및 향후 작업
- Model‑Specific Tuning – 비용 모델은 비교적 정적인 연산/통신 비율을 가정합니다; 적응형 희소성처럼 매우 동적인 워크로드는 더 빈번한 재조정이 필요할 수 있습니다.
- Hardware Diversity – 평가가 NVIDIA GPU와 NCCL에 초점을 맞추었으며, AMD HIP 또는 TPU 인터커넥트로 확장하려면 추가 프로파일링 훅이 필요합니다.
- Scalability Beyond 64 GPUs – 선형 탐색은 잘 확장되지만, 논문에서는 128‑GPU 이상 클러스터에서 네트워크 토폴로지(예: fat‑tree vs. dragonfly)가 새로운 병목을 초래할 수 있다는 결과를 보고하지 않았습니다.
- Integration with Scheduler – 향후 작업에서는 Lagom의 비용 모델을 클러스터 스케줄러에 노출시켜 작업 배치와 통신 인식 자원 할당을 공동으로 수행할 수 있도록 할 수 있습니다.
저자
- Guanbin Xu
- ZhenGuo Xu
- Yuzhe Li
- Youhui Bai
- Ping Gong
- Chaoyi Ruan
- Cheng Li
논문 정보
- arXiv ID: 2602.20656v1
- 분류: cs.DC
- 출판일: 2026년 2월 24일
- PDF: Download PDF