NVIDIA Spectrum‑X — 开放的 AI 原生以太网织体 — 为超大规模 AI 设定标准,现已支持 MRC
Source: NVIDIA AI Blog
构建全球最强大 AI 工厂的竞争需要网络能够跟上 AI 本身的雄心。NVIDIA Spectrum‑X Ethernet 可扩展基础设施站在这场竞争的前沿,作为当今最先进的 AI 网络技术,已被那些在性能、弹性或规模上无法妥协的行业领袖部署。
其中包括 OpenAI、Microsoft 和 Oracle。
多路径可靠连接 (MRC)
包括 NVIDIA、Microsoft 和 OpenAI 在内的公司通过推出 多路径可靠连接 (MRC)——一种 RDMA 传输协议,展示了行业领导力。
- MRC 的作用 – 它使单个 RDMA 连接能够在多条网络路径之间分配流量,从而提升大规模 AI 训练网络的吞吐量、负载均衡和可用性。
- 类比 – 可以把它想象成用一个巧妙布局的街区网格系统取代贯穿城镇的单车道道路,并配合实时交通应用,让驾驶员能够在拥堵或道路封闭时重新规划路线。
“在 Blackwell 代际中部署 MRC 非常成功,这得益于与 NVIDIA 的紧密合作,” OpenAI 工业计算负责人 Sachin Katti 说。
“MRC 的端到端方法让我们避免了许多典型的网络相关延迟和中断,保持了大规模前沿训练运行的效率。”
合作亮点
- Microsoft 与 NVIDIA – 长期合作伙伴关系,致力于推动下一代 AI 所需基础设施的进步。
- Microsoft 的 Fairwater 与 Oracle Cloud Infrastructure (OCI) Abilene 数据中心 – 两个专为训练和部署前沿大型语言模型(LLM)而打造的最大 AI 工厂,均依赖 MRC 满足性能、规模和效率要求。
- NVIDIA Spectrum‑X Ethernet – 提供运行大规模 AI 模型和应用所需的网络基础,确保可靠性。
MRC 最初在 NVIDIA Spectrum‑X Ethernet 硬件上进行生产验证,如今通过开放计算项目以开放规范形式发布: OCP MRC 1.0 PDF。
为什么 MRC + Spectrum‑X 以太网重要
| 功能 | 好处 |
|---|---|
| 跨所有路径的负载均衡 | 在整个训练过程中保持 GPU 利用率高。 |
| 动态拥塞规避 | 通过自动将流量引离过载路径,即使在拥塞情况下也能维持高带宽。 |
| 智能重传 | 快速、精准地从数据丢失中恢复,最小化对长时间作业的影响,避免 GPU 空闲。 |
| 细粒度可视性与控制 | 简化运维并加速大规模故障排查。 |
| 硬件级故障绕过 | 在微秒级检测路径故障并自动重新路由流量,保持数千个 GPU 同步。 |
| 多平面网络支持 | 多个独立的织物(平面)提供备用通信路径;Spectrum‑X 多平面能力在跨平面进行硬件加速负载均衡的同时,保持低延迟并可扩展至数十万 GPU。 |
传输模型灵活性
使用 Spectrum‑X Ethernet,客户可以根据工作负载选择最合适的 RDMA 传输模型:
- 自适应 RDMA(Spectrum‑X Ethernet 原生)
- MRC(多路径可靠连接)
- 自定义协议(根据需要)
所有模型均可在以下硬件上原生运行:
- NVIDIA ConnectX SuperNIC – Product page
- Spectrum‑X Ethernet 交换机 – Product page
自适应 RDMA 和 MRC 均支持千兆规模的多平面网络设计,为客户在特定 AI 工作负载中选择合适的传输方式提供了灵活性。
开放标准与行业合作
随着 AI 工厂规模的不断扩大,网络必须 智能、弹性且基于开放标准。NVIDIA Spectrum‑X 以太网在这三方面均有出色表现,并且通过 MRC 继续为先进的 AI 网络设定基准。
NVIDIA 在 MRC 开发过程中与 AMD、Broadcom、Intel、Microsoft 和 OpenAI 合作。
了解更多
- NVIDIA Spectrum‑X 以太网 – 官方网页
- MRC 白皮书 (PDF) – 使用 MRC 和 SRv6 的弹性 AI 超级计算机网络
- Open Compute Project 规范 – OCP MRC 1.0
请参阅 notice 了解软件产品信息。