[Paper] 重新审视 LLM 后训练中的 Parameter Server

发布: (2026年1月27日 GMT+8 16:44)
3 分钟阅读
原文: arXiv

Source: arXiv - 2601.19362v1

概览

现代数据并行(DP)训练倾向于使用集合通信而非参数服务器(PS),因为在负载均衡的情况下它更简单且更高效。然而,在大语言模型(LLM)后训练中,由于序列长度的高度差异,负载均衡的假设已不再成立。面对不平衡的工作负载,集合通信会产生同步屏障,导致工作负载较小的设备利用率下降。这种训练动态的变化要求重新审视 PS 范式,以其对不平衡的鲁棒性。

我们提出 按需通信(On-Demand Communication,ODC),通过用直接点对点通信替代集合的 all‑gather 和 reduce‑scatter,将 PS 适配到全分片数据并行(FSDP)中。与 FSDP 相比,ODC 将同步屏障从每层一次降低到每个小批次一次,并且解耦了每个设备上的工作负载,使得更快的工作节点不会被阻塞。它还在小批次层面实现了更简单、更有效的负载均衡。

在多种 LLM 后训练任务中,ODC 始终提升设备利用率和训练吞吐量,相比标准 FSDP 实现最高 36 % 的加速。这些结果表明,ODC 更适合 LLM 后训练中普遍存在的不平衡工作负载。我们已在 https://github.com/sail-sg/odc 开源了 ODC 的实现及其与 FSDP 的集成。

主要贡献

  • cs.DC
  • cs.AI

方法论

详细的方法论请参阅完整论文。

实际意义

本研究推动了 cs.DC 领域的发展。

作者

  • Xinyi Wan
  • Penghui Qi
  • Guangxing Huang
  • Chaoyi Ruan
  • Min Lin
  • Jialin Li

论文信息

  • arXiv ID: 2601.19362v1
  • 分类: cs.DC, cs.AI
  • 发布日期: 2026 年 1 月 27 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »