[Paper] 使用 MRC 和 SRv6 的弹性 AI 超级计算机网络
发布: (2026年5月6日 GMT+8 06:40)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.04333v1
概述
本文提出了一种全新的网络栈,旨在即使底层网络出现拥塞或故障时,也能保持大规模 AI 训练集群的平稳运行。通过结合一种新颖的 RDMA 传输(MRC)、高基数多平面 Clos 拓扑以及静态 SRv6 源路由,作者展示了如何在跨越 100 K+ GPUs 的集群中降低尾部延迟并避免代价高昂的作业重启。
关键贡献
- MRC(Multipath RDMA Congestion‑aware)传输 – 一种基于 RDMA 的协议,能够在多个并行路径上分散流量,并动态平衡负载,以消除流冲突。
- 多平面 Clos 拓扑 – 一种两层网络设计,利用高基数交换机提供带宽和内置冗余,使得超大规模集群无需单点故障。
- 静态 SRv6 源路由 – 预先计算的 IPv6 段路由表,使 MRC 能够在无需控制器介入的情况下自动绕过故障链路或交换机。
- 生产验证 – 在 OpenAI 和 Microsoft 最大的训练集群中部署并长期运行完整堆栈,为前沿语言模型的预训练提供动力。
- 量化证据 表明,组合方案可降低尾部延迟,并使作业能够在网络故障中存活,而这些故障过去会导致训练中止。
方法论
- Design of MRC – 作者在标准 RDMA verbs 接口上扩展了一个轻量级路径选择引擎。每条消息被拆分为多个 “sprays”,同时在一组不相交的路径上发送;确认消息会反馈拥塞信号,促使引擎将流量从热点链路转移。
- Network topology construction – 使用商业可得的 64 端口(或更高)交换机,构建了多平面 Clos 结构:多个独立的 spine 层互连 leaf 交换机,使每个 leaf 能拥有通向任意其他 leaf 的若干物理不相交的路由。
- Static SRv6 routing – 在部署前,团队计算出完整的段路由头部集合,用于编码每一种可能的单链路或单交换机失效的备选绕行。这些头部被缓存于 NIC 上,MRC 检测到故障时只需切换到预先计算好的段列表。
- Experimental evaluation – 在最多 120 K GPU 的集群上运行真实工作负载(BERT 规模和 GPT 规模的预训练任务)。作者注入合成故障(链路掉线、交换机重启),并测量尾部延迟、作业完成时间以及作业重启频率。
- Comparison baseline – 将结果与传统三层 fat‑tree 网络上的单路径 RDMA 进行比较,后者依赖响应式路由(如 ECMP)和人工运维干预。
结果与发现
| 指标 | 基准(fat‑tree) | MRC + SRv6 在多平面 Clos 上 |
|---|---|---|
| 99 百分位延迟(每步) | 2.8 ms | 0.9 ms |
| 作业级中断率(每 100 h) | 4.3 % | 0.2 % |
| 平均训练吞吐量(samples/s) | 1.0× | 1.35× |
| 单链路故障恢复时间 | ~30 s(手动) | < 2 s(自动) |
- 尾延迟 下降超过 60%,得益于路径喷射和动态负载均衡。
- 作业中断 大幅下降;大多数注入的故障被吸收,未触发任何检查点回滚。
- 静态 SRv6 表仅增加 可忽略的开销(≈ 5 µs 每个数据包),同时提供即时故障切换。
- 与传统 fat‑tree 相比,多平面 Clos 设计使相同数量的 GPU 连接所需的 交换机数量约减少 30%,从而降低资本成本和功耗。
实际意义
- 对于 AI 基础设施团队 – 采用 MRC 和 SRv6 可以显著提升大规模训练流水线的可靠性,减少频繁检查点的需求以及相关的存储 I/O 负载。
- 对于云服务提供商 – 两层多平面 Clos 可以使用现成的高阶交换机构建,提供一种成本有效的通向 PB 级互连的路径,而无需完整的三层结构的复杂性。
- 对于分布式训练框架的开发者(例如 PyTorch Distributed、DeepSpeed) – 该传输通过标准 RDMA verbs 暴露,这意味着现有基于 NCCL 的代码只需极少改动即可受益。
- 对于网络运营商 – 静态 SRv6 路由消除了在故障期间进行快速响应式控制平面更新的需求,简化了运维并降低了路由错误的风险。
- 对性能敏感的服务(例如实时推理集群)也可以利用 MRC 的低尾延迟特性,以满足严格的 SLA 要求。
限制与未来工作
- 静态路由粒度 – 虽然 SRv6 表能够覆盖单链路/交换机故障,但同时出现的多故障场景仍可能需要动态重新计算。
- 路径选择状态的可扩展性 – 在 NIC 上维护每个流的拥塞指标在极大量连接时可能成为瓶颈;作者建议采用层次聚合作为下一步。
- 硬件依赖性 – 完整的收益需要支持自定义 RDMA verbs 和 SRv6 卸载的 NIC;旧设备将退回到基线行为。
- 在异构工作负载上的评估 – 本研究聚焦于同步数据并行训练;将该方法扩展到模型并行或流水线并行方案仍有待探索。
作者计划探索基于机器学习的故障预测驱动的自适应 SRv6 更新,并开源一个轻量级的 MRC 库,以促进更广泛的社区采用。
作者
- Joao Araujo
- Alex Chow
- Mark Handley
- Ryder Lewis
- Christoph Paasch
- Jitendra Padhye
- Michael Papamichael
- Greg Steinbrecher
- Amin Tootoonchian
- Lihua Yuan
- S. Anantharamu
- Abhishek Dosi
- Mohit Garg
- Mahdieh Ghazi
- Torsten Hoefler
- Deepal Jayasinghe
- Jithin Jose
- Abdul Kabbani
- Guohan Lu
- Yang Wang
- K. Doddapaneni
- Murali Garimella
- Vipin Jain
- Yanfang Le
- H. Nagulapalli
- S. Narayanan
- Rong Pan
- Rathina Sabesan
- Raghava Sivaramu
- Rip Sohan
- Eric Davis
- Dragos Dumitrescu
- Mohan Kalkunte
- Bhaswar Mitra
- Guglielmo Morandin
- Adrian Popa
- Costin Raiciu
- Eric Spada
- John Spillane
- Niranjan Vaidya
- Aviv Barnea
- Idan Burstein
- Elazar Cohen
- Yamin Friedman
- Noam Katz
- Masoud Moshref
- Yuval Shpigelman
- Shahaf Shuler
- Shy Shyman
- Sayantan Sur
论文信息
- arXiv ID: 2605.04333v1
- 类别: cs.NI, cs.AI, cs.DC
- 发表时间: 2026年5月5日
- PDF: Download PDF