FoMoE: 전체 복제 장벽을 깨는 전문가 집단의 연방
개요
대규모 LLM(대형 언어 모델)의 사전 학습은 일반적으로 하드웨어 가속기가 긴밀히 결합된 대형 인프라를 필요로 합니다. 모델 및 데이터 규모의 증가가 성능 향상의 주요 동력으로 남아 있지만, Mixture-of-Experts(MoE) 아키텍처는 최근 파라미터 수와 연산 비용을 분리함으로써 최첨단 결과를 달성했습니다. 이 효율성은 제한된 연산 예산을 활용해 대규모 모델을 훈련할 수 있게 하며, 일반적으로는 단일 데이터 센터의 고속 연결이 필요합니다. 물리적 한계를 극복하기 위해 DiLoCo와 Photon과 같은 최근 접근법들은 저통신 데이터 병렬 방법을 사용해 지리적으로 분산되고 약하게 연결된 데이터 센터 간에 스케일링을 가능하게 합니다. 그러나 이러한 방법들은 근본적인 비효율성을 겪습니다: 각 사이트에 전체 모델 복제본이 필요해 메모리 제약과 통신 오버헤드가 초래됩니다. 본 연구에서는 FoMOE라는 시스템을 도입하여 전체 복제 패러다임을 깨고 전문 층을 워커 간에 분할합니다. FoMOE는 다음을 보여줍니다: (I) 연구 대상 환경에서 부분적 전문가 복제로 효율적인 베이스라인 대비 통신 비용을 최대 1.42배, DDP 대비 45.44배 감소시킴; (II) 새로운 skip-token 메커니즘을 통해 최대 1.4배의 실증 속도 향상을 달성; 그리고 (III) 훈련된 프록시 regime에서 안정적인 라우팅을 보이며 시스템 모델링을 통해 100B 규모의 통신/메모리 이점을 예측.
주요 공헌
본 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
- cs.AI
- cs.DC
- eess.SY
방법론
자세한 방법については 전체 논문을 참고하십시오.
실용적 의미
이 연구는 cs.LG의 발전에 기여합니다.
저자
- Lorenzo Sani
- Zeyu Cao
- Meghdad Kurmanji
- Alex Iacob
- Andrej Jovanovic
- Yan Gao
- Wanru Zhao
- Nicholas D. Lane
논문 정보
- arXiv ID: 2606.19025v1
- 분야: cs.LG, cs.AI, cs.DC, eess.SY
- 발행일: 2026년 6월 17일
- PDF: Download PDF