[Paper] LLM 포스트 트레이닝에서 Parameter Server 재검토
Source: arXiv - 2601.19362v1
Overview
현대 데이터 병렬(DP) 학습은 균형 잡힌 작업 부하 하에서 단순성과 효율성 때문에 파라미터 서버(PS)보다 집합 통신을 선호합니다. 그러나 대형 언어 모델(LLM) 사후 학습에서는 시퀀스 길이의 높은 변동성으로 인해 균형 잡힌 작업 부하 가정이 더 이상 성립하지 않습니다. 작업 부하가 불균형할 경우, 집합 통신은 동기화 장벽을 만들어 작업량이 적은 디바이스의 활용도를 낮춥니다. 이러한 학습 역학의 변화는 불균형에 강인한 PS 패러다임을 재검토할 필요성을 제기합니다.
우리는 On-Demand Communication (ODC) 를 제안합니다. ODC는 집합 all‑gather와 reduce‑scatter를 직접적인 포인트‑투‑포인트 통신으로 교체함으로써 PS를 Fully Sharded Data Parallel(FSDP)로 적응시킵니다. FSDP와 비교했을 때, ODC는 동기화 장벽을 레이어당 한 번에서 미니배치당 한 번으로 감소시키고 각 디바이스의 작업 부하를 분리하여 빠른 워커가 정지되지 않도록 합니다. 또한 미니배치 수준에서 더 간단하고 효과적인 부하 균형을 가능하게 합니다.
다양한 LLM 사후 학습 작업 전반에 걸쳐, ODC는 디바이스 활용도와 학습 처리량을 지속적으로 향상시켜 표준 FSDP 대비 최대 36 %의 속도 향상을 달성합니다. 이러한 결과는 ODC가 LLM 사후 학습에서 흔히 발생하는 불균형 작업 부하에 더 적합함을 보여줍니다. ODC 구현 및 FSDP와의 통합은 https://github.com/sail-sg/odc에서 오픈소스로 제공됩니다.
Key Contributions
- cs.DC
- cs.AI
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.DC 분야의 발전에 기여합니다.
Authors
- Xinyi Wan
- Penghui Qi
- Guangxing Huang
- Chaoyi Ruan
- Min Lin
- Jialin Li
Paper Information
- arXiv ID: 2601.19362v1
- Categories: cs.DC, cs.AI
- Published: January 27, 2026
- PDF: Download PDF