[Paper] Lagom:释放通信与计算重叠的力量,用于分布式 LLM 训练

发布: (2026年2月24日 GMT+8 16:00)
7 分钟阅读
原文: arXiv

抱歉,我需要您提供要翻译的具体文本内容(例如摘要、正文或其他段落)。请将需要翻译的文字粘贴在这里,我会按照您的要求保留源链接和原始格式进行翻译。

概述

本文介绍了 Lagom,一个在大规模语言模型(LLMs)分布式训练期间智能重叠通信与计算的系统。通过共同调优通信参数,Lagom 自动找到一个最佳点,使网络和 GPU 都不成为瓶颈,从而在高带宽和低带宽 GPU 集群上都实现了可观的加速。

关键贡献

  • 统一成本模型 – 一个捕获计算和通信成本的单一分析模型,使不同并行化策略的直接比较成为可能。
  • 基于优先级的搜索算法 – 将可能的参数设置的组合爆炸从指数时间降低到线性时间,使运行时调优实用化。
  • 通信参数的协同调优 – 同时调整消息大小、聚合深度和调度优先级,以在网络后台工作时保持 GPU 的忙碌。
  • 广泛评估 – 在多种 LLM(GPT‑2、BERT、T5)和并行方案(数据、张量、流水线)上,在 100 Gbps 和 25 Gbps GPU 集群上展示出一致的加速(1.03‑1.33×)。
  • 开源原型 – 实现基于 NCCL/AutoCCL,可最小化代码改动地嵌入现有的 PyTorch/Docker 流水线。

Source:

方法论

  1. 分析阶段 – Lagom 首先在目标集群上运行一个简短的微基准测试,以测量原始计算吞吐量(每秒 FLOPs)和网络特性(延迟、带宽、争用)。

  2. 成本建模 – 使用这些测量值,系统构建一个成本方程:

    [ \text{Total Time} = \frac{\text{Compute Work}}{\text{Compute Rate}} + \frac{\text{Comm Volume}}{\text{Effective Bandwidth}} + \text{Overlap Penalty} ]

    “重叠惩罚”量化了通信对计算流水线的阻塞程度。

  3. 参数空间定义 – Lagom 定义了一组可调节的旋钮:

    • 块大小(一次打包多少张量)
    • 聚合深度(流水线化多少个归约步骤)
    • 优先级层级(哪些张量优先发送)
  4. 基于优先级的搜索 – Lagom 并非枚举所有组合,而是根据它们对成本模型的边际影响对旋钮进行排序,并贪心地探索最有前景的选项。搜索在边际收益低于阈值时停止,从而保证线性运行时间。

  5. 运行时自适应 – 在训练过程中,Lagom 监控实际的重叠效率,并在工作负载或网络条件漂移时重新触发搜索。

结果与发现

集群模型 / 并行方式基准 (NCCL)基准 (AutoCCL)Lagom
100 Gbps (8×A100)GPT‑2,张量并行 81.00×1.08×1.33×
25 Gbps (4×V100)BERT,流水线 41.00×1.03×1.27×
混合(数据 + 张量)T5,16‑GPU1.00×1.07×1.20×
  • 通信受限的场景(大张量并行度)获得了最大的提升,因为 Lagom 能将更多张量打包到更少的网络调用中。
  • 计算受限的场景仍然受益(≈3‑7 % 加速),通过减少因偶发网络停顿导致的 GPU 空闲时间。
  • 线性时间搜索为总训练时间增加了 < 2 % 的开销,验证了其实用性。

实际影响

  • 更快的模型迭代 – 团队可以在无需购买新硬件的情况下,将多周的 LLM 预训练时间缩短数天。
  • 云端成本节约 – 更好的重叠可以降低 GPU 小时消耗,尤其是在网络质量波动的 Spot 实例集群中。
  • 简化运维 – Lagom 的自动调优消除了手动“手动调参” NCCL 参数的需求,这一直是将规模扩展到 64‑GPU pod 的 DevOps 工程师的痛点。
  • 可移植性 – 由于 Lagom 基于标准 NCCL/AutoCCL,可通过一次 lagom.init() 调用集成到现有的 PyTorch torch.distributed 脚本中。
  • 边缘情况 – 在低带宽本地集群(例如 10 Gbps 以太网)中,Lagom 对关键梯度的优先级调度能力可以保持训练稳定,而普通的扩展方式可能导致发散。

限制与未来工作

  • 模型特定调优 – 成本模型假设计算/通信比率相对静态;高度动态的工作负载(例如自适应稀疏)可能需要更频繁的重新调优。
  • 硬件多样性 – 评估集中在 NVIDIA GPU 和 NCCL;扩展到 AMD HIP 或 TPU 互连将需要额外的分析钩子。
  • 超过 64 GPU 的可扩展性 – 虽然线性搜索可良好扩展,但论文未报告在 > 128‑GPU 集群上的结果,在这些环境中网络拓扑(如 fat‑tree 与 dragonfly)可能会引入新的瓶颈。
  • 与调度器的集成 – 未来工作可以将 Lagom 的成本模型暴露给集群调度器,以实现作业放置和通信感知资源分配的联合优化。

作者

  • Guanbin Xu
  • ZhenGuo Xu
  • Yuzhe Li
  • Youhui Bai
  • Ping Gong
  • Chaoyi Ruan
  • Cheng Li

论文信息

  • arXiv ID: 2602.20656v1
  • 分类: cs.DC
  • 发布日期: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »