[Paper] 使用 MRC 和 SRv6 的弹性 AI 超级计算机网络

发布: (2026年5月6日 GMT+8 06:40)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.04333v1

概述

本文提出了一种全新的网络栈,旨在即使底层网络出现拥塞或故障时,也能保持大规模 AI 训练集群的平稳运行。通过结合一种新颖的 RDMA 传输(MRC)、高基数多平面 Clos 拓扑以及静态 SRv6 源路由,作者展示了如何在跨越 100 K+ GPUs 的集群中降低尾部延迟并避免代价高昂的作业重启。

关键贡献

  • MRC(Multipath RDMA Congestion‑aware)传输 – 一种基于 RDMA 的协议,能够在多个并行路径上分散流量,并动态平衡负载,以消除流冲突。
  • 多平面 Clos 拓扑 – 一种两层网络设计,利用高基数交换机提供带宽和内置冗余,使得超大规模集群无需单点故障。
  • 静态 SRv6 源路由 – 预先计算的 IPv6 段路由表,使 MRC 能够在无需控制器介入的情况下自动绕过故障链路或交换机。
  • 生产验证 – 在 OpenAI 和 Microsoft 最大的训练集群中部署并长期运行完整堆栈,为前沿语言模型的预训练提供动力。
  • 量化证据 表明,组合方案可降低尾部延迟,并使作业能够在网络故障中存活,而这些故障过去会导致训练中止。

方法论

  1. Design of MRC – 作者在标准 RDMA verbs 接口上扩展了一个轻量级路径选择引擎。每条消息被拆分为多个 “sprays”,同时在一组不相交的路径上发送;确认消息会反馈拥塞信号,促使引擎将流量从热点链路转移。
  2. Network topology construction – 使用商业可得的 64 端口(或更高)交换机,构建了多平面 Clos 结构:多个独立的 spine 层互连 leaf 交换机,使每个 leaf 能拥有通向任意其他 leaf 的若干物理不相交的路由。
  3. Static SRv6 routing – 在部署前,团队计算出完整的段路由头部集合,用于编码每一种可能的单链路或单交换机失效的备选绕行。这些头部被缓存于 NIC 上,MRC 检测到故障时只需切换到预先计算好的段列表。
  4. Experimental evaluation – 在最多 120 K GPU 的集群上运行真实工作负载(BERT 规模和 GPT 规模的预训练任务)。作者注入合成故障(链路掉线、交换机重启),并测量尾部延迟、作业完成时间以及作业重启频率。
  5. Comparison baseline – 将结果与传统三层 fat‑tree 网络上的单路径 RDMA 进行比较,后者依赖响应式路由(如 ECMP)和人工运维干预。

结果与发现

指标基准(fat‑tree)MRC + SRv6 在多平面 Clos 上
99 百分位延迟(每步)2.8 ms0.9 ms
作业级中断率(每 100 h)4.3 %0.2 %
平均训练吞吐量(samples/s)1.0×1.35×
单链路故障恢复时间~30 s(手动)< 2 s(自动)
  • 尾延迟 下降超过 60%,得益于路径喷射和动态负载均衡。
  • 作业中断 大幅下降;大多数注入的故障被吸收,未触发任何检查点回滚。
  • 静态 SRv6 表仅增加 可忽略的开销(≈ 5 µs 每个数据包),同时提供即时故障切换。
  • 与传统 fat‑tree 相比,多平面 Clos 设计使相同数量的 GPU 连接所需的 交换机数量约减少 30%,从而降低资本成本和功耗。

实际意义

  • 对于 AI 基础设施团队 – 采用 MRC 和 SRv6 可以显著提升大规模训练流水线的可靠性,减少频繁检查点的需求以及相关的存储 I/O 负载。
  • 对于云服务提供商 – 两层多平面 Clos 可以使用现成的高阶交换机构建,提供一种成本有效的通向 PB 级互连的路径,而无需完整的三层结构的复杂性。
  • 对于分布式训练框架的开发者(例如 PyTorch Distributed、DeepSpeed) – 该传输通过标准 RDMA verbs 暴露,这意味着现有基于 NCCL 的代码只需极少改动即可受益。
  • 对于网络运营商 – 静态 SRv6 路由消除了在故障期间进行快速响应式控制平面更新的需求,简化了运维并降低了路由错误的风险。
  • 对性能敏感的服务(例如实时推理集群)也可以利用 MRC 的低尾延迟特性,以满足严格的 SLA 要求。

限制与未来工作

  • 静态路由粒度 – 虽然 SRv6 表能够覆盖单链路/交换机故障,但同时出现的多故障场景仍可能需要动态重新计算。
  • 路径选择状态的可扩展性 – 在 NIC 上维护每个流的拥塞指标在极大量连接时可能成为瓶颈;作者建议采用层次聚合作为下一步。
  • 硬件依赖性 – 完整的收益需要支持自定义 RDMA verbs 和 SRv6 卸载的 NIC;旧设备将退回到基线行为。
  • 在异构工作负载上的评估 – 本研究聚焦于同步数据并行训练;将该方法扩展到模型并行或流水线并行方案仍有待探索。

作者计划探索基于机器学习的故障预测驱动的自适应 SRv6 更新,并开源一个轻量级的 MRC 库,以促进更广泛的社区采用。

作者

  • Joao Araujo
  • Alex Chow
  • Mark Handley
  • Ryder Lewis
  • Christoph Paasch
  • Jitendra Padhye
  • Michael Papamichael
  • Greg Steinbrecher
  • Amin Tootoonchian
  • Lihua Yuan
  • S. Anantharamu
  • Abhishek Dosi
  • Mohit Garg
  • Mahdieh Ghazi
  • Torsten Hoefler
  • Deepal Jayasinghe
  • Jithin Jose
  • Abdul Kabbani
  • Guohan Lu
  • Yang Wang
  • K. Doddapaneni
  • Murali Garimella
  • Vipin Jain
  • Yanfang Le
  • H. Nagulapalli
  • S. Narayanan
  • Rong Pan
  • Rathina Sabesan
  • Raghava Sivaramu
  • Rip Sohan
  • Eric Davis
  • Dragos Dumitrescu
  • Mohan Kalkunte
  • Bhaswar Mitra
  • Guglielmo Morandin
  • Adrian Popa
  • Costin Raiciu
  • Eric Spada
  • John Spillane
  • Niranjan Vaidya
  • Aviv Barnea
  • Idan Burstein
  • Elazar Cohen
  • Yamin Friedman
  • Noam Katz
  • Masoud Moshref
  • Yuval Shpigelman
  • Shahaf Shuler
  • Shy Shyman
  • Sayantan Sur

论文信息

  • arXiv ID: 2605.04333v1
  • 类别: cs.NI, cs.AI, cs.DC
  • 发表时间: 2026年5月5日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »