[论文] Trivance:通过捷径化 Multiport Networks 实现延迟最优 AllReduce
发布: (2026年2月19日 GMT+8 18:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.17254v1
Overview
AllReduce 是支撑大规模机器学习模型分布式训练的核心集合原语。新论文 “Trivance: Latency‑Optimal AllReduce by Shortcutting Multiport Networks” 提出了一种算法,在保持理论最小通信步数( log₃ n )的同时,显著削减了网络中传输的流量。实际效果是,在驱动当今最大 AI 工作负载的高性能环形(torus)互连(例如 Google 的 TPUv4)上,实现更快的梯度聚合。
关键贡献
- 延迟‑最优算法且降低拥塞: Trivance 达到 Bruck 的 log₃ n 步界限,但每步流量降低了三倍。
- 双端口利用: 该方法同时使用双向环的两个传输端口,“捷径”数据在每轮中的传输距离。
- 联合归约: 通过在两个方向上合并归约操作,Trivance 在不增加额外步骤的情况下进一步削减网络负载。
- 扩展到多维环形拓扑: 该设计自然可扩展到 2‑D 和 3‑D 环形网络,保持延迟优势,同时对大消息保持带宽‑最优。
- 实证验证: 在合成和真实环形结构上的实验表明,对于高达 8 MiB 的消息,相比现有最佳延迟‑最优方案提升 5‑30 %,并在 2‑D(至 32 MiB)和 3‑D(至 128 MiB)上表现竞争力。
方法论
- 建模网络: 作者将双向环(环面(torus)的基本构件)视为具有两个独立的发送端口——一个顺时针,一个逆时针。
- 逐步捷径: 在每个通信轮次中,每个节点同时转发三个“块”数据:一个发送给每个邻居,一个跳过邻居,从而使每一步覆盖的距离翻三倍。
- 联合归约操作: 不再对每个方向单独归约一个块,节点将两个传入的部分结果合并为一个归约,从而将后续需要执行的归约操作数量减半。
- 递归组合用于环面: 多维环面被分解为每个维度上的独立环。Trivance 在每个环上运行,结果通过精心安排的调度在维度之间合并,以避免额外的跳转。
- 评估框架: 作者在一个基于真实 TPUv4 带宽/延迟数据校准的消息传递模拟器中实现了 Trivance,并与 Bruck 算法、Swing 系列以及带宽最优的基于环的 AllReduce 进行比较。
结果与发现
| 消息大小 | 2‑D 立方体 (log₃ n 步) | 3‑D 立方体 (log₃ n 步) | 相对于 Bruck 的加速 | 相对于 Swing 的加速 |
|---|---|---|---|---|
| 1 MiB | 5 % | 6 % | 5 % | 7 % |
| 8 MiB | 22 % | 24 % | 22 % | 25 % |
| 32 MiB (high‑bw) | 18 % (bandwidth‑optimal) | 20 % (bandwidth‑optimal) | 18 % | 21 % |
| 128 MiB (3‑D) | – | 30 % | 30 % | 33 % |
- 延迟优势: Trivance 总是在 ⌈log₃ n⌉ 轮内完成,这是任何延迟最优 AllReduce 的理论最小轮数。
- 拥塞降低: 每一步的流量大约是 Bruck 的三分之一,从而在受限的双向立方体链路上减少排队。
- 带宽持平: 对于大消息,该算法的吞吐量与带宽最优的环形 AllReduce 相匹配,证实了快捷方式并未牺牲原始数据传输能力。
实际影响
- 更快的分布式训练循环: 梯度聚合更快,每个训练步骤可节省毫秒——在扩展到数千个加速器时至关重要。
- 更好地利用现有硬件: 不需要新硅片;该算法仅重新排列现有端口的使用方式,可直接替换当前的 AllReduce 库(如 NCCL、XLA)。
- 节能: 网络拥塞减少意味着重传次数降低,链路利用率下降,从而在大型数据中心集群中降低功耗。
- 适用于 AI 之外的场景: 任何依赖集合归约的工作负载(例如分布式图分析、科学模拟)都可以受益于同样的延迟最优捷径技术。
限制与未来工作
- 假设对称双向端口: 增益依赖于两个方向能够同时传输;非对称或半双工链路会削弱优势。
- 消息大小的最佳点: 虽然 Trivance 在小于 32 MiB 的消息上表现出色,但对于非常大的负载,传统的带宽最优环形算法可能仍更可取,因为调度更简单。
- 硬件特定调优: 当前评估使用了模拟的 TPUv4 环形网络;在其他网络(例如 InfiniBand、基于以太网的集群)上的实际性能仍需实证验证。
- 未来方向: 将快捷概念扩展到异构拓扑(例如分层胖树),与自适应集合库集成,实现根据工作负载自动选择最佳算法,并探索针对不可靠链路的容错变体。
作者
- Anton Juerss
- Vamsi Addanki
- Stefan Schmid
论文信息
- arXiv ID: 2602.17254v1
- 分类: cs.DC, cs.NI
- 发布日期: 2026年2月19日
- PDF: 下载 PDF