[Paper] Lagom:释放通信与计算重叠的力量,用于分布式 LLM 训练
抱歉,我需要您提供要翻译的具体文本内容(例如摘要、正文或其他段落)。请将需要翻译的文字粘贴在这里,我会按照您的要求保留源链接和原始格式进行翻译。
概述
本文介绍了 Lagom,一个在大规模语言模型(LLMs)分布式训练期间智能重叠通信与计算的系统。通过共同调优通信参数,Lagom 自动找到一个最佳点,使网络和 GPU 都不成为瓶颈,从而在高带宽和低带宽 GPU 集群上都实现了可观的加速。
关键贡献
- 统一成本模型 – 一个捕获计算和通信成本的单一分析模型,使不同并行化策略的直接比较成为可能。
- 基于优先级的搜索算法 – 将可能的参数设置的组合爆炸从指数时间降低到线性时间,使运行时调优实用化。
- 通信参数的协同调优 – 同时调整消息大小、聚合深度和调度优先级,以在网络后台工作时保持 GPU 的忙碌。
- 广泛评估 – 在多种 LLM(GPT‑2、BERT、T5)和并行方案(数据、张量、流水线)上,在 100 Gbps 和 25 Gbps GPU 集群上展示出一致的加速(1.03‑1.33×)。
- 开源原型 – 实现基于 NCCL/AutoCCL,可最小化代码改动地嵌入现有的 PyTorch/Docker 流水线。
Source: …
方法论
-
分析阶段 – Lagom 首先在目标集群上运行一个简短的微基准测试,以测量原始计算吞吐量(每秒 FLOPs)和网络特性(延迟、带宽、争用)。
-
成本建模 – 使用这些测量值,系统构建一个成本方程:
[ \text{Total Time} = \frac{\text{Compute Work}}{\text{Compute Rate}} + \frac{\text{Comm Volume}}{\text{Effective Bandwidth}} + \text{Overlap Penalty} ]
“重叠惩罚”量化了通信对计算流水线的阻塞程度。
-
参数空间定义 – Lagom 定义了一组可调节的旋钮:
- 块大小(一次打包多少张量)
- 聚合深度(流水线化多少个归约步骤)
- 优先级层级(哪些张量优先发送)
-
基于优先级的搜索 – Lagom 并非枚举所有组合,而是根据它们对成本模型的边际影响对旋钮进行排序,并贪心地探索最有前景的选项。搜索在边际收益低于阈值时停止,从而保证线性运行时间。
-
运行时自适应 – 在训练过程中,Lagom 监控实际的重叠效率,并在工作负载或网络条件漂移时重新触发搜索。
结果与发现
| 集群 | 模型 / 并行方式 | 基准 (NCCL) | 基准 (AutoCCL) | Lagom |
|---|---|---|---|---|
| 100 Gbps (8×A100) | GPT‑2,张量并行 8 | 1.00× | 1.08× | 1.33× |
| 25 Gbps (4×V100) | BERT,流水线 4 | 1.00× | 1.03× | 1.27× |
| 混合(数据 + 张量) | T5,16‑GPU | 1.00× | 1.07× | 1.20× |
- 通信受限的场景(大张量并行度)获得了最大的提升,因为 Lagom 能将更多张量打包到更少的网络调用中。
- 计算受限的场景仍然受益(≈3‑7 % 加速),通过减少因偶发网络停顿导致的 GPU 空闲时间。
- 线性时间搜索为总训练时间增加了 < 2 % 的开销,验证了其实用性。
实际影响
- 更快的模型迭代 – 团队可以在无需购买新硬件的情况下,将多周的 LLM 预训练时间缩短数天。
- 云端成本节约 – 更好的重叠可以降低 GPU 小时消耗,尤其是在网络质量波动的 Spot 实例集群中。
- 简化运维 – Lagom 的自动调优消除了手动“手动调参” NCCL 参数的需求,这一直是将规模扩展到 64‑GPU pod 的 DevOps 工程师的痛点。
- 可移植性 – 由于 Lagom 基于标准 NCCL/AutoCCL,可通过一次
lagom.init()调用集成到现有的 PyTorchtorch.distributed脚本中。 - 边缘情况 – 在低带宽本地集群(例如 10 Gbps 以太网)中,Lagom 对关键梯度的优先级调度能力可以保持训练稳定,而普通的扩展方式可能导致发散。
限制与未来工作
- 模型特定调优 – 成本模型假设计算/通信比率相对静态;高度动态的工作负载(例如自适应稀疏)可能需要更频繁的重新调优。
- 硬件多样性 – 评估集中在 NVIDIA GPU 和 NCCL;扩展到 AMD HIP 或 TPU 互连将需要额外的分析钩子。
- 超过 64 GPU 的可扩展性 – 虽然线性搜索可良好扩展,但论文未报告在 > 128‑GPU 集群上的结果,在这些环境中网络拓扑(如 fat‑tree 与 dragonfly)可能会引入新的瓶颈。
- 与调度器的集成 – 未来工作可以将 Lagom 的成本模型暴露给集群调度器,以实现作业放置和通信感知资源分配的联合优化。
作者
- Guanbin Xu
- ZhenGuo Xu
- Yuzhe Li
- Youhui Bai
- Ping Gong
- Chaoyi Ruan
- Cheng Li
论文信息
- arXiv ID: 2602.20656v1
- 分类: cs.DC
- 发布日期: 2026年2月24日
- PDF: 下载 PDF