[Paper] Lagom：释放通信与计算重叠的力量，用于分布式 LLM 训练

发布: 3天前 (2026年2月24日 GMT+8 16:00)

7 分钟阅读

原文: arXiv

抱歉，我需要您提供要翻译的具体文本内容（例如摘要、正文或其他段落）。请将需要翻译的文字粘贴在这里，我会按照您的要求保留源链接和原始格式进行翻译。

概述

本文介绍了 Lagom，一个在大规模语言模型（LLMs）分布式训练期间智能重叠通信与计算的系统。通过共同调优通信参数，Lagom 自动找到一个最佳点，使网络和 GPU 都不成为瓶颈，从而在高带宽和低带宽 GPU 集群上都实现了可观的加速。

统一成本模型 – 一个捕获计算和通信成本的单一分析模型，使不同并行化策略的直接比较成为可能。
基于优先级的搜索算法 – 将可能的参数设置的组合爆炸从指数时间降低到线性时间，使运行时调优实用化。
通信参数的协同调优 – 同时调整消息大小、聚合深度和调度优先级，以在网络后台工作时保持 GPU 的忙碌。
广泛评估 – 在多种 LLM（GPT‑2、BERT、T5）和并行方案（数据、张量、流水线）上，在 100 Gbps 和 25 Gbps GPU 集群上展示出一致的加速（1.03‑1.33×）。
开源原型 – 实现基于 NCCL/AutoCCL，可最小化代码改动地嵌入现有的 PyTorch/Docker 流水线。

Source: …

分析阶段 – Lagom 首先在目标集群上运行一个简短的微基准测试，以测量原始计算吞吐量（每秒 FLOPs）和网络特性（延迟、带宽、争用）。
成本建模 – 使用这些测量值，系统构建一个成本方程：

[ \text{Total Time} = \frac{\text{Compute Work}}{\text{Compute Rate}} + \frac{\text{Comm Volume}}{\text{Effective Bandwidth}} + \text{Overlap Penalty} ]

“重叠惩罚”量化了通信对计算流水线的阻塞程度。
参数空间定义 – Lagom 定义了一组可调节的旋钮：
- 块大小（一次打包多少张量）
- 聚合深度（流水线化多少个归约步骤）
- 优先级层级（哪些张量优先发送）
基于优先级的搜索 – Lagom 并非枚举所有组合，而是根据它们对成本模型的边际影响对旋钮进行排序，并贪心地探索最有前景的选项。搜索在边际收益低于阈值时停止，从而保证线性运行时间。
运行时自适应 – 在训练过程中，Lagom 监控实际的重叠效率，并在工作负载或网络条件漂移时重新触发搜索。

集群	模型 / 并行方式	基准 (NCCL)	基准 (AutoCCL)	Lagom
100 Gbps (8×A100)	GPT‑2，张量并行 8	1.00×	1.08×	1.33×
25 Gbps (4×V100)	BERT，流水线 4	1.00×	1.03×	1.27×
混合（数据 + 张量）	T5，16‑GPU	1.00×	1.07×	1.20×

更快的模型迭代 – 团队可以在无需购买新硬件的情况下，将多周的 LLM 预训练时间缩短数天。
云端成本节约 – 更好的重叠可以降低 GPU 小时消耗，尤其是在网络质量波动的 Spot 实例集群中。
简化运维 – Lagom 的自动调优消除了手动“手动调参” NCCL 参数的需求，这一直是将规模扩展到 64‑GPU pod 的 DevOps 工程师的痛点。
可移植性 – 由于 Lagom 基于标准 NCCL/AutoCCL，可通过一次 lagom.init() 调用集成到现有的 PyTorch torch.distributed 脚本中。
边缘情况 – 在低带宽本地集群（例如 10 Gbps 以太网）中，Lagom 对关键梯度的优先级调度能力可以保持训练稳定，而普通的扩展方式可能导致发散。

模型特定调优 – 成本模型假设计算/通信比率相对静态；高度动态的工作负载（例如自适应稀疏）可能需要更频繁的重新调优。
硬件多样性 – 评估集中在 NVIDIA GPU 和 NCCL；扩展到 AMD HIP 或 TPU 互连将需要额外的分析钩子。
超过 64 GPU 的可扩展性 – 虽然线性搜索可良好扩展，但论文未报告在 > 128‑GPU 集群上的结果，在这些环境中网络拓扑（如 fat‑tree 与 dragonfly）可能会引入新的瓶颈。
与调度器的集成 – 未来工作可以将 Lagom 的成本模型暴露给集群调度器，以实现作业放置和通信感知资源分配的联合优化。