NVIDIA DGX SuperPOD 为基于Rubin的系统奠定基础

发布: (2026年1月6日 GMT+8 06:50)
10 min read

Source: NVIDIA AI Blog

请提供您希望翻译的具体文本内容,我将按照要求保留来源链接并进行简体中文翻译。

Rubin 平台概览

在拉斯维加斯的 CES 上,NVIDIA 推出了 Rubin 平台,这是一系列六款新芯片,旨在提供单一、强大的 AI 超级计算机。该平台的设计目标是加速:

  • 主体 AI
  • Mixture‑of‑Experts(MoE)模型
  • 长上下文推理

核心组件

ComponentDescription
NVIDIA Vera CPU用于 AI 工作负载的高性能 CPU。
Rubin GPU为训练和推理优化的下一代 GPU。
NVLink 6 Switch用于芯片间通信的高带宽互连。
ConnectX‑9 SuperNIC高级网络接口。
BlueField‑4 DPU用于卸载和安全的数据处理单元。
Spectrum‑6 Ethernet Switch用于数据中心连接的可扩展以太网结构。

这六款芯片通过先进的 codesign 方法 紧密集成,能够:

  • 加速模型训练
  • 降低推理令牌生成的成本

DGX SuperPOD

DGX SuperPOD 仍然是部署基于 Rubin 的系统在企业和研究环境中的基础设计。

NVIDIA DGX 平台

The NVIDIA DGX platform delivers a complete technology stack—compute, networking, and software—as a single, cohesive system. This eliminates the burden of infrastructure integration, letting teams focus on:

  • 人工智能创新
  • 业务成果

“Rubin 正好在合适的时机出现,因为 AI 计算需求(包括训练和推理)正呈爆炸式增长。” — Jensen Huang, 创始人兼首席执行官, NVIDIA

参考文献

新平台,AI工业革命

The Rubin platform 为最新的 DGX 系统提供动力,并引入了五项关键技术进步,实现了智能和效率的阶跃式提升。

#进展关键规格与优势
1第六代 NVIDIA NVLink• 每块 GPU 3.6 TB/s
• 每个 Vera Rubin NVL72 机架 260 TB/s
• 支持大规模 MoE 与长上下文工作负载
2NVIDIA Vera CPU• 88 核自定义 Olympus 核(兼容 Arm v9.2)
• 超高速 NVLink‑C2C 互连
• 提供业界领先、效率极高的 AI 工厂计算
3NVIDIA Rubin GPU• 50 PFLOPS NVFP4 推理计算性能
• 第三代 Transformer Engine,具备硬件加速压缩
4第三代 NVIDIA Confidential Computing• 首个机架级平台,实现 CPU、GPU 与 NVLink 域的端到端机密性
5第二代 RAS 引擎• 实时健康监控、容错和主动维护,覆盖 GPU、CPU 与 NVLink
• 模块化、无线缆托盘,使维护速度提升 3 倍

影响: 这些创新共同实现了相较上一代 10 倍的推理 Token 成本降低,这在模型规模、上下文长度和推理深度持续增长的背景下,是一个关键里程碑。

Source: https://www.nvidia.com/en-us/data-center/dgx-superpod/

DGX SuperPOD:NVIDIA Rubin Scale‑Out 蓝图

核心组件

组件角色
NVIDIA DGX Vera Rubin NVL72DGX Rubin NVL8 系统计算节点(Rubin GPU、CPU、内存)
NVIDIA BlueField‑4 DPU安全、软件定义基础设施
NVIDIA Inference Context Memory Storage Platform低延迟推理数据存储
NVIDIA ConnectX‑9 SuperNIC高性能网络
NVIDIA Quantum‑X800 InfiniBandNVIDIA Spectrum‑X Ethernet用于超高速节点间通信的互连结构
NVIDIA Mission Control自动化 AI 基础设施编排与运维

使用 DGX Vera Rubin NVL72 的 DGX SuperPOD

  • 配置: 8 × DGX Vera Rubin NVL72
  • GPU 数量: 576 颗 Rubin GPU(每节点 72 颗)
  • 性能: 28.8 EFLOPS FP4
  • 内存: 600 TB 超高速内存(每节点 75 TB)
  • CPU/DPU 组合: 每节点 36 颗 Vera CPU + 18 颗 BlueField‑4 DPU
  • 互连: 260 TB/s 总计 NVLink 吞吐量 → 消除模型划分,使整机机架可作为单一一致的 AI 引擎运行

关键收益: 整个机架统一的内存‑计算空间,为大规模训练和推理工作负载提供前所未有的吞吐量。

使用 DGX Rubin NVL8 的 DGX SuperPOD

  • 配置: 64 × DGX Rubin NVL8
  • GPU 数量: 512 颗 Rubin GPU(每节点 8 颗)
  • 每节点性能: 相比 NVIDIA Blackwell 系统提升 5.5 倍 NVFP4 FLOPS(得益于 8 颗 Rubin GPU + 第六代 NVLink)
  • 形态: 采用液冷、基于 x86‑CPU 的机箱——为任何 AI 项目从开发到部署提供高效的入门平台

关键收益: 为各种规模的组织提供可扩展、能效高的 Rubin 时代入口点。

可视化概览

DGX Rubin NVL8 scale‑out architecture – NVIDIA blog illustration

所有规格均基于 NVIDIA 截至 2026 年 1 月公开发布的数据。

下一代 AI 工厂网络

Rubin 平台将数据中心重新定义为高性能 AI 工厂,围绕以下革命性网络构建:

  • NVIDIA Spectrum‑6 Ethernet switches
  • NVIDIA Quantum‑X800 InfiniBand switches
  • NVIDIA BlueField‑4 DPUs
  • NVIDIA ConnectX‑9 SuperNICs

这些组件集成到 NVIDIA DGX SuperPOD 中,以消除传统瓶颈——规模、拥塞和可靠性——同时支撑全球最大规模的 AI 工作负载。

为大规模集群优化的连接

800 Gb/s 端到端网络套件提供两条专为 AI 基础设施设计的路径,无论使用 InfiniBand 还是 Ethernet,都能确保最高效率。

路径关键特性主要用途
NVIDIA Quantum‑X800 InfiniBand• 为 AI 集群提供最低延迟、最高性能的网络
• 可扩展的分层聚合与归约协议 (SHARP v4)
• 自适应路由,将集合操作卸载到网络结构
专用 AI 集群,需求超低延迟
NVIDIA Spectrum‑6 Ethernet• 基于 Spectrum‑6 交换机和 ConnectX‑9 SuperNIC 构建
• 可预测的高性能横向和纵向扩展连接
• 为 AI 工作负载典型的“东西向”流量模式进行优化
依赖标准 Ethernet 协议的 AI 工厂

打造千兆瓦 AI 工厂

这些创新体现了 Rubin 平台的极致代码设计。通过精通拥塞控制和性能隔离,NVIDIA 正在为下一波千兆瓦 AI 工厂铺路。这种整体方法确保随着 AI 模型复杂度的提升,网络结构仍然是加速的催化剂,而非限制因素。

NVIDIA 软件推动 AI 工厂运营和部署

NVIDIA Mission Control

它是什么 – 用于基于 NVIDIA Blackwell 的 DGX 系统(亦可用于基于 Rubin 的 DGX 系统)的 AI 驱动数据中心运营与编排软件。

关键功能

  • 自动化部署配置并与设施系统集成。
  • 管理集群、工作负载和资源调度。

基础设施收益

  • 加强对 NVIDIA Rubin 冷却和电力事件的控制。
  • 提升弹性并加快对事故的响应(例如,快速泄漏检测)。
  • 获取 NVIDIA 最新的效率创新。
  • 自动恢复,以最大化 AI 工厂的生产力。

了解更多关于 NVIDIA Mission Control →

NVIDIA AI Enterprise 平台

支持平台 – 所有 NVIDIA DGX 系统。

包含内容

  • NVIDIA NIM – 为开发者提供的一套生成式 AI 微服务。
  • 预训练的开源模型,如 NVIDIA Nemotron‑3 系列。
  • 相关数据、库和工具,帮助快速进行 AI 开发。

探索 NVIDIA AI Enterprise →
NVIDIA NIM 微服务详情 →

通过将智能的端到端软件与 DGX 硬件相结合,NVIDIA 使企业能够运行更高效、更具弹性且更易管理的 AI 工厂。

DGX SuperPOD:工业 AI 的前进之路

DGX SuperPOD 长期以来一直是大规模 AI 基础设施的蓝图。Rubin 平台的到来将成为新一代 AI 工厂的启动平台——这些系统旨在跨越数千个步骤进行推理,并以显著降低的成本提供智能,帮助组织构建下一波前沿模型、多模态系统和具备代理能力的 AI 应用。

可用性

NVIDIA DGX SuperPOD 搭配 DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统将在今年下半年上市。

请参阅关于软件产品信息的声明

Back to Blog

相关文章

阅读更多 »