[Paper] 重新审视 LLM 后训练中的 Parameter Server
Source: arXiv - 2601.19362v1
概览
现代数据并行(DP)训练倾向于使用集合通信而非参数服务器(PS),因为在负载均衡的情况下它更简单且更高效。然而,在大语言模型(LLM)后训练中,由于序列长度的高度差异,负载均衡的假设已不再成立。面对不平衡的工作负载,集合通信会产生同步屏障,导致工作负载较小的设备利用率下降。这种训练动态的变化要求重新审视 PS 范式,以其对不平衡的鲁棒性。
我们提出 按需通信(On-Demand Communication,ODC),通过用直接点对点通信替代集合的 all‑gather 和 reduce‑scatter,将 PS 适配到全分片数据并行(FSDP)中。与 FSDP 相比,ODC 将同步屏障从每层一次降低到每个小批次一次,并且解耦了每个设备上的工作负载,使得更快的工作节点不会被阻塞。它还在小批次层面实现了更简单、更有效的负载均衡。
在多种 LLM 后训练任务中,ODC 始终提升设备利用率和训练吞吐量,相比标准 FSDP 实现最高 36 % 的加速。这些结果表明,ODC 更适合 LLM 后训练中普遍存在的不平衡工作负载。我们已在 https://github.com/sail-sg/odc 开源了 ODC 的实现及其与 FSDP 的集成。
主要贡献
- cs.DC
- cs.AI
方法论
详细的方法论请参阅完整论文。
实际意义
本研究推动了 cs.DC 领域的发展。
作者
- Xinyi Wan
- Penghui Qi
- Guangxing Huang
- Chaoyi Ruan
- Min Lin
- Jialin Li
论文信息
- arXiv ID: 2601.19362v1
- 分类: cs.DC, cs.AI
- 发布日期: 2026 年 1 月 27 日
- PDF: Download PDF