[Paper] Lagom: 분산 LLM 훈련을 위한 통신 및 계산 겹침의 힘 발휘

발행: (2026년 2월 24일 오후 05:00 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.20656v1

위에 있는 소스 링크 아래에 번역하고자 하는 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. 부탁드립니다.

Overview

이 논문은 Lagom이라는 시스템을 소개합니다. 이 시스템은 대규모 언어 모델(LLM)의 분산 학습 중 통신과 계산을 지능적으로 겹쳐 수행합니다. 통신 매개변수를 공동으로 조정함으로써 Lagom은 네트워크와 GPU 중 어느 쪽도 병목이 되지 않는 최적점을 자동으로 찾아내며, 고대역폭 및 저대역폭 GPU 클러스터 모두에서 측정 가능한 속도 향상을 제공합니다.

주요 기여

  • 통합 비용 모델 – 컴퓨팅 비용과 통신 비용을 모두 포착하는 단일 분석 모델로, 다양한 병렬화 전략을 직접 비교할 수 있게 함.
  • 우선순위 기반 탐색 알고리즘 – 가능한 파라미터 설정의 조합 폭을 지수 시간에서 선형 시간으로 감소시켜, 런타임 튜닝을 실용적으로 만듦.
  • 통신 파라미터 공동 튜닝 – 메시지 크기, 집계 깊이, 스케줄링 우선순위를 동시에 조정하여 GPU를 바쁘게 유지하면서 네트워크는 백그라운드에서 작동하도록 함.
  • 광범위한 평가 – 100 Gbps 및 25 Gbps GPU 클러스터에서 다양한 LLM(GPT‑2, BERT, T5) 및 병렬화 방식(데이터, 텐서, 파이프라인)에 걸쳐 일관된 속도 향상(1.03‑1.33×)을 입증.
  • 오픈소스 프로토타입 – 구현은 NCCL/AutoCCL을 기반으로 하며, 최소한의 코드 변경으로 기존 PyTorch/Docker 파이프라인에 삽입 가능.

방법론

  1. 프로파일링 단계 – Lagom은 대상 클러스터에서 짧은 마이크로‑벤치마크를 실행하여 원시 연산 처리량(FLOP/초)과 네트워크 특성(지연 시간, 대역폭, 혼잡)을 측정합니다.

  2. 비용 모델링 – 이러한 측정값을 사용해 시스템은 다음과 같은 비용 방정식을 구성합니다:

    [ \text{Total Time} = \frac{\text{Compute Work}}{\text{Compute Rate}} + \frac{\text{Comm Volume}}{\text{Effective Bandwidth}} + \text{Overlap Penalty} ]

    여기서 “overlap penalty”는 통신이 연산 파이프라인을 얼마나 정지시키는지를 정량화합니다.

  3. 파라미터 공간 정의 – Lagom은 조정 가능한 노브 집합을 정의합니다:

    • 청크 크기 (몇 개의 텐서를 함께 패킹할지)
    • 집계 깊이 (몇 단계의 축소 연산을 파이프라인할지)
    • 우선순위 레벨 (어떤 텐서를 먼저 전송할지)
  4. 우선순위 기반 탐색 – 모든 조합을 전부 열거하는 대신, Lagom은 비용 모델에 대한 한계 영향을 기준으로 노브를 순위 매기고 가장 유망한 것부터 탐욕적으로 탐색합니다. 한계 이득이 임계값 이하로 떨어지면 탐색을 중단하여 선형 실행 시간을 보장합니다.

  5. 런타임 적응 – 학습 중에 Lagom은 실제 겹침 효율성을 모니터링하고, 워크로드나 네트워크 상황이 변하면 검색을 다시 호출할 수 있습니다.

결과 및 발견

클러스터모델 / 병렬성기준 (NCCL)기준 (AutoCCL)Lagom
100 Gbps (8×A100)GPT‑2, tensor parallel 81.00×1.08×1.33×
25 Gbps (4×V100)BERT, pipeline 41.00×1.03×1.27×
Mixed (data + tensor)T5, 16‑GPU1.00×1.07×1.20×
  • 통신 제한 영역(대규모 텐서 병렬 정도)에서는 Lagom이 더 많은 텐서를 더 적은 네트워크 호출에 묶을 수 있어 가장 큰 향상을 보였습니다.
  • 연산 제한 영역도 여전히 이점을 얻었으며(≈3‑7 % 속도 향상), 가끔 발생하는 네트워크 정체로 인한 GPU 유휴 시간을 감소시켰습니다.
  • 선형 시간 탐색은 전체 학습 시간에 < 2 %의 오버헤드만 추가되어 실용성을 확인했습니다.

실용적인 시사점

  • 더 빠른 모델 반복 – 팀은 새로운 하드웨어를 구입하지 않고도 수주에 걸친 LLM 사전 학습 시간을 며칠 단축할 수 있습니다.
  • 클라우드 비용 절감 – 더 나은 겹침(overlap)은 GPU 시간 소비를 줄이며, 특히 네트워크 품질이 변동하는 스팟 인스턴스 풀에서 효과적입니다.
  • 운용 간소화 – Lagom의 자동 튜닝은 64‑GPU 팟으로 확장하는 DevOps 엔지니어에게 골칫거리인 NCCL 파라미터의 수동 “핸드‑튜닝” 필요성을 없앱니다.
  • 이식성 – Lagom은 표준 NCCL/AutoCCL 위에서 동작하므로 기존 PyTorch torch.distributed 스크립트에 lagom.init() 한 번 호출만으로 통합할 수 있습니다.
  • 특수 상황 – 저대역폭 온프레미스 클러스터(예: 10 Gbps 이더넷)에서 Lagom이 중요한 그래디언트를 우선순위화하는 능력은 단순 스케일링으로는 발산할 수 있는 상황에서도 학습을 안정적으로 유지합니다.

제한 사항 및 향후 작업

  • Model‑Specific Tuning – 비용 모델은 비교적 정적인 연산/통신 비율을 가정합니다; 적응형 희소성처럼 매우 동적인 워크로드는 더 빈번한 재조정이 필요할 수 있습니다.
  • Hardware Diversity – 평가가 NVIDIA GPU와 NCCL에 초점을 맞추었으며, AMD HIP 또는 TPU 인터커넥트로 확장하려면 추가 프로파일링 훅이 필요합니다.
  • Scalability Beyond 64 GPUs – 선형 탐색은 잘 확장되지만, 논문에서는 128‑GPU 이상 클러스터에서 네트워크 토폴로지(예: fat‑tree vs. dragonfly)가 새로운 병목을 초래할 수 있다는 결과를 보고하지 않았습니다.
  • Integration with Scheduler – 향후 작업에서는 Lagom의 비용 모델을 클러스터 스케줄러에 노출시켜 작업 배치와 통신 인식 자원 할당을 공동으로 수행할 수 있도록 할 수 있습니다.

저자

  • Guanbin Xu
  • ZhenGuo Xu
  • Yuzhe Li
  • Youhui Bai
  • Ping Gong
  • Chaoyi Ruan
  • Cheng Li

논문 정보

  • arXiv ID: 2602.20656v1
  • 분류: cs.DC
  • 출판일: 2026년 2월 24일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »