[논문] LLM 사전학습을 위한 로컬 통신과 로컬 업데이트 통합
개요
LLM(대형 언어 모델)의 사전 학습에서 통신 효율성을 높이는 것이 점점 더 중요해지고 있습니다. 학습이 클러스터, 데이터 센터, 그리고 대역폭이 낮은 링크에 걸쳐 분산된 컴퓨팅 자원을 활용하기 때문입니다. 많은 실용적인 방법들이 통신 빈도를 줄이지만, 여전히 동일한 모델 상태를 유지하고 진행을 전역 집합 연산에 묶는 동기식 All-Reduce 연산에 의존합니다. 이는 대역폭이나 워커 속도가 이질적일 때 병목 현상이 될 수 있습니다. 우리는 GASLoC이라는 새로운 분산 사전 학습 알고리즘을 소개합니다. 이 알고리즘은 최근 각광받고 있는 “외부 옵티마이저(outer optimizer)” 개념에 통신 가속을 일반화하여, 적응형 옵티마이저와 호환되고 로컬 옵티마이저 스텝을 허용하며, 희소 무작위 피어 통신을 활용할 수 있는 실용적인 가십 기반 학습 프레임워크를 제공합니다. 실험적으로, 여러 표준 LLM 학습 과제에서 GASLoC이 다양한 토폴로지에서 통신당 한 스텝 설정으로 최첨단 분산 알고리즘들을 능가함을 보여줍니다. 또한, 기존 LLM 분야의 분산 방법들과 달리 다중 로컬 스텝을 사용할 경우 DiLoCo와 경쟁할 만한 성능을 얻을 수 있습니다. 이질적인 대역폭 환경에서는 GASLoC이 DiLoCo를 크게 앞서는 장점을 입증합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Pietro Cagnasso
- Eugene Belilovsky
- Edouard Oyallon
논문 정보
- arXiv ID: 2606.11081v1
- 분류: cs.LG, cs.AI
- 발표일: 2026년 6월 9일
- PDF: PDF 다운로드