[Paper] 使用 MRC 和 SRv6 的弹性 AI 超级计算机网络

发布: 5天前 (2026年5月6日 GMT+8 06:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.04333v1

概述

本文提出了一种全新的网络栈，旨在即使底层网络出现拥塞或故障时，也能保持大规模 AI 训练集群的平稳运行。通过结合一种新颖的 RDMA 传输（MRC）、高基数多平面 Clos 拓扑以及静态 SRv6 源路由，作者展示了如何在跨越 100 K+ GPUs 的集群中降低尾部延迟并避免代价高昂的作业重启。

关键贡献

MRC（Multipath RDMA Congestion‑aware）传输 – 一种基于 RDMA 的协议，能够在多个并行路径上分散流量，并动态平衡负载，以消除流冲突。
多平面 Clos 拓扑 – 一种两层网络设计，利用高基数交换机提供带宽和内置冗余，使得超大规模集群无需单点故障。
静态 SRv6 源路由 – 预先计算的 IPv6 段路由表，使 MRC 能够在无需控制器介入的情况下自动绕过故障链路或交换机。
生产验证 – 在 OpenAI 和 Microsoft 最大的训练集群中部署并长期运行完整堆栈，为前沿语言模型的预训练提供动力。
量化证据 表明，组合方案可降低尾部延迟，并使作业能够在网络故障中存活，而这些故障过去会导致训练中止。

方法论

Design of MRC – 作者在标准 RDMA verbs 接口上扩展了一个轻量级路径选择引擎。每条消息被拆分为多个 “sprays”，同时在一组不相交的路径上发送；确认消息会反馈拥塞信号，促使引擎将流量从热点链路转移。
Network topology construction – 使用商业可得的 64 端口（或更高）交换机，构建了多平面 Clos 结构：多个独立的 spine 层互连 leaf 交换机，使每个 leaf 能拥有通向任意其他 leaf 的若干物理不相交的路由。
Static SRv6 routing – 在部署前，团队计算出完整的段路由头部集合，用于编码每一种可能的单链路或单交换机失效的备选绕行。这些头部被缓存于 NIC 上，MRC 检测到故障时只需切换到预先计算好的段列表。
Experimental evaluation – 在最多 120 K GPU 的集群上运行真实工作负载（BERT 规模和 GPT 规模的预训练任务）。作者注入合成故障（链路掉线、交换机重启），并测量尾部延迟、作业完成时间以及作业重启频率。
Comparison baseline – 将结果与传统三层 fat‑tree 网络上的单路径 RDMA 进行比较，后者依赖响应式路由（如 ECMP）和人工运维干预。

结果与发现

指标	基准（fat‑tree）	MRC + SRv6 在多平面 Clos 上
99 百分位延迟（每步）	2.8 ms	0.9 ms
作业级中断率（每 100 h）	4.3 %	0.2 %
平均训练吞吐量（samples/s）	1.0×	1.35×
单链路故障恢复时间	~30 s（手动）	< 2 s（自动）

尾延迟 下降超过 60%，得益于路径喷射和动态负载均衡。
作业中断 大幅下降；大多数注入的故障被吸收，未触发任何检查点回滚。
静态 SRv6 表仅增加 可忽略的开销（≈ 5 µs 每个数据包），同时提供即时故障切换。
与传统 fat‑tree 相比，多平面 Clos 设计使相同数量的 GPU 连接所需的 交换机数量约减少 30%，从而降低资本成本和功耗。

实际意义

对于 AI 基础设施团队 – 采用 MRC 和 SRv6 可以显著提升大规模训练流水线的可靠性，减少频繁检查点的需求以及相关的存储 I/O 负载。
对于云服务提供商 – 两层多平面 Clos 可以使用现成的高阶交换机构建，提供一种成本有效的通向 PB 级互连的路径，而无需完整的三层结构的复杂性。
对于分布式训练框架的开发者（例如 PyTorch Distributed、DeepSpeed） – 该传输通过标准 RDMA verbs 暴露，这意味着现有基于 NCCL 的代码只需极少改动即可受益。
对于网络运营商 – 静态 SRv6 路由消除了在故障期间进行快速响应式控制平面更新的需求，简化了运维并降低了路由错误的风险。
对性能敏感的服务（例如实时推理集群）也可以利用 MRC 的低尾延迟特性，以满足严格的 SLA 要求。

限制与未来工作

静态路由粒度 – 虽然 SRv6 表能够覆盖单链路/交换机故障，但同时出现的多故障场景仍可能需要动态重新计算。
路径选择状态的可扩展性 – 在 NIC 上维护每个流的拥塞指标在极大量连接时可能成为瓶颈；作者建议采用层次聚合作为下一步。
硬件依赖性 – 完整的收益需要支持自定义 RDMA verbs 和 SRv6 卸载的 NIC；旧设备将退回到基线行为。
在异构工作负载上的评估 – 本研究聚焦于同步数据并行训练；将该方法扩展到模型并行或流水线并行方案仍有待探索。

作者计划探索基于机器学习的故障预测驱动的自适应 SRv6 更新，并开源一个轻量级的 MRC 库，以促进更广泛的社区采用。

作者

Joao Araujo
Alex Chow
Mark Handley
Ryder Lewis
Christoph Paasch
Jitendra Padhye
Michael Papamichael
Greg Steinbrecher
Amin Tootoonchian
Lihua Yuan
S. Anantharamu
Abhishek Dosi
Mohit Garg
Mahdieh Ghazi
Torsten Hoefler
Deepal Jayasinghe
Jithin Jose
Abdul Kabbani
Guohan Lu
Yang Wang
K. Doddapaneni
Murali Garimella
Vipin Jain
Yanfang Le
H. Nagulapalli
S. Narayanan
Rong Pan
Rathina Sabesan
Raghava Sivaramu
Rip Sohan
Eric Davis
Dragos Dumitrescu
Mohan Kalkunte
Bhaswar Mitra
Guglielmo Morandin
Adrian Popa
Costin Raiciu
Eric Spada
John Spillane
Niranjan Vaidya
Aviv Barnea
Idan Burstein
Elazar Cohen
Yamin Friedman
Noam Katz
Masoud Moshref
Yuval Shpigelman
Shahaf Shuler
Shy Shyman
Sayantan Sur

论文信息

arXiv ID: 2605.04333v1
类别: cs.NI, cs.AI, cs.DC
发表时间: 2026年5月5日
PDF: Download PDF

[Paper] 使用 MRC 和 SRv6 的弹性 AI 超级计算机网络

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择