[Paper] 重新审视 LLM 后训练中的 Parameter Server

发布: 3个月前 (2026年1月27日 GMT+8 16:44)

3 分钟阅读

原文: arXiv

Source: arXiv - 2601.19362v1

概览

现代数据并行（DP）训练倾向于使用集合通信而非参数服务器（PS），因为在负载均衡的情况下它更简单且更高效。然而，在大语言模型（LLM）后训练中，由于序列长度的高度差异，负载均衡的假设已不再成立。面对不平衡的工作负载，集合通信会产生同步屏障，导致工作负载较小的设备利用率下降。这种训练动态的变化要求重新审视 PS 范式，以其对不平衡的鲁棒性。

我们提出 按需通信（On-Demand Communication，ODC），通过用直接点对点通信替代集合的 all‑gather 和 reduce‑scatter，将 PS 适配到全分片数据并行（FSDP）中。与 FSDP 相比，ODC 将同步屏障从每层一次降低到每个小批次一次，并且解耦了每个设备上的工作负载，使得更快的工作节点不会被阻塞。它还在小批次层面实现了更简单、更有效的负载均衡。

在多种 LLM 后训练任务中，ODC 始终提升设备利用率和训练吞吐量，相比标准 FSDP 实现最高 36 % 的加速。这些结果表明，ODC 更适合 LLM 后训练中普遍存在的不平衡工作负载。我们已在 https://github.com/sail-sg/odc 开源了 ODC 的实现及其与 FSDP 的集成。

主要贡献

cs.DC
cs.AI

方法论

详细的方法论请参阅完整论文。

实际意义

本研究推动了 cs.DC 领域的发展。

作者

Xinyi Wan
Penghui Qi
Guangxing Huang
Chaoyi Ruan
Min Lin
Jialin Li

论文信息

arXiv ID: 2601.19362v1
分类: cs.DC, cs.AI
发布日期: 2026 年 1 月 27 日
PDF: Download PDF

[Paper] 重新审视 LLM 后训练中的 Parameter Server

概览

主要贡献

方法论

实际意义

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈