NVIDIA DGX SuperPOD 为基于Rubin的系统奠定基础
Source: NVIDIA AI Blog
请提供您希望翻译的具体文本内容,我将按照要求保留来源链接并进行简体中文翻译。
Rubin 平台概览
在拉斯维加斯的 CES 上,NVIDIA 推出了 Rubin 平台,这是一系列六款新芯片,旨在提供单一、强大的 AI 超级计算机。该平台的设计目标是加速:
- 主体 AI
- Mixture‑of‑Experts(MoE)模型
- 长上下文推理
核心组件
| Component | Description |
|---|---|
| NVIDIA Vera CPU | 用于 AI 工作负载的高性能 CPU。 |
| Rubin GPU | 为训练和推理优化的下一代 GPU。 |
| NVLink 6 Switch | 用于芯片间通信的高带宽互连。 |
| ConnectX‑9 SuperNIC | 高级网络接口。 |
| BlueField‑4 DPU | 用于卸载和安全的数据处理单元。 |
| Spectrum‑6 Ethernet Switch | 用于数据中心连接的可扩展以太网结构。 |
这六款芯片通过先进的 codesign 方法 紧密集成,能够:
- 加速模型训练
- 降低推理令牌生成的成本
DGX SuperPOD
DGX SuperPOD 仍然是部署基于 Rubin 的系统在企业和研究环境中的基础设计。
NVIDIA DGX 平台
The NVIDIA DGX platform delivers a complete technology stack—compute, networking, and software—as a single, cohesive system. This eliminates the burden of infrastructure integration, letting teams focus on:
- 人工智能创新
- 业务成果
“Rubin 正好在合适的时机出现,因为 AI 计算需求(包括训练和推理)正呈爆炸式增长。” — Jensen Huang, 创始人兼首席执行官, NVIDIA
参考文献
新平台,AI工业革命
The Rubin platform 为最新的 DGX 系统提供动力,并引入了五项关键技术进步,实现了智能和效率的阶跃式提升。
| # | 进展 | 关键规格与优势 |
|---|---|---|
| 1 | 第六代 NVIDIA NVLink | • 每块 GPU 3.6 TB/s • 每个 Vera Rubin NVL72 机架 260 TB/s • 支持大规模 MoE 与长上下文工作负载 |
| 2 | NVIDIA Vera CPU | • 88 核自定义 Olympus 核(兼容 Arm v9.2) • 超高速 NVLink‑C2C 互连 • 提供业界领先、效率极高的 AI 工厂计算 |
| 3 | NVIDIA Rubin GPU | • 50 PFLOPS NVFP4 推理计算性能 • 第三代 Transformer Engine,具备硬件加速压缩 |
| 4 | 第三代 NVIDIA Confidential Computing | • 首个机架级平台,实现 CPU、GPU 与 NVLink 域的端到端机密性 |
| 5 | 第二代 RAS 引擎 | • 实时健康监控、容错和主动维护,覆盖 GPU、CPU 与 NVLink • 模块化、无线缆托盘,使维护速度提升 3 倍 |
影响: 这些创新共同实现了相较上一代 10 倍的推理 Token 成本降低,这在模型规模、上下文长度和推理深度持续增长的背景下,是一个关键里程碑。
Source: https://www.nvidia.com/en-us/data-center/dgx-superpod/
DGX SuperPOD:NVIDIA Rubin Scale‑Out 蓝图
核心组件
| 组件 | 角色 |
|---|---|
| NVIDIA DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统 | 计算节点(Rubin GPU、CPU、内存) |
| NVIDIA BlueField‑4 DPU | 安全、软件定义基础设施 |
| NVIDIA Inference Context Memory Storage Platform | 低延迟推理数据存储 |
| NVIDIA ConnectX‑9 SuperNIC | 高性能网络 |
| NVIDIA Quantum‑X800 InfiniBand 与 NVIDIA Spectrum‑X Ethernet | 用于超高速节点间通信的互连结构 |
| NVIDIA Mission Control | 自动化 AI 基础设施编排与运维 |
使用 DGX Vera Rubin NVL72 的 DGX SuperPOD
- 配置: 8 × DGX Vera Rubin NVL72
- GPU 数量: 576 颗 Rubin GPU(每节点 72 颗)
- 性能: 28.8 EFLOPS FP4
- 内存: 600 TB 超高速内存(每节点 75 TB)
- CPU/DPU 组合: 每节点 36 颗 Vera CPU + 18 颗 BlueField‑4 DPU
- 互连: 260 TB/s 总计 NVLink 吞吐量 → 消除模型划分,使整机机架可作为单一一致的 AI 引擎运行
关键收益: 整个机架统一的内存‑计算空间,为大规模训练和推理工作负载提供前所未有的吞吐量。
使用 DGX Rubin NVL8 的 DGX SuperPOD
- 配置: 64 × DGX Rubin NVL8
- GPU 数量: 512 颗 Rubin GPU(每节点 8 颗)
- 每节点性能: 相比 NVIDIA Blackwell 系统提升 5.5 倍 NVFP4 FLOPS(得益于 8 颗 Rubin GPU + 第六代 NVLink)
- 形态: 采用液冷、基于 x86‑CPU 的机箱——为任何 AI 项目从开发到部署提供高效的入门平台
关键收益: 为各种规模的组织提供可扩展、能效高的 Rubin 时代入口点。
可视化概览

所有规格均基于 NVIDIA 截至 2026 年 1 月公开发布的数据。
下一代 AI 工厂网络
Rubin 平台将数据中心重新定义为高性能 AI 工厂,围绕以下革命性网络构建:
- NVIDIA Spectrum‑6 Ethernet switches
- NVIDIA Quantum‑X800 InfiniBand switches
- NVIDIA BlueField‑4 DPUs
- NVIDIA ConnectX‑9 SuperNICs
这些组件集成到 NVIDIA DGX SuperPOD 中,以消除传统瓶颈——规模、拥塞和可靠性——同时支撑全球最大规模的 AI 工作负载。
为大规模集群优化的连接
800 Gb/s 端到端网络套件提供两条专为 AI 基础设施设计的路径,无论使用 InfiniBand 还是 Ethernet,都能确保最高效率。
| 路径 | 关键特性 | 主要用途 |
|---|---|---|
| NVIDIA Quantum‑X800 InfiniBand | • 为 AI 集群提供最低延迟、最高性能的网络 • 可扩展的分层聚合与归约协议 (SHARP v4) • 自适应路由,将集合操作卸载到网络结构 | 专用 AI 集群,需求超低延迟 |
| NVIDIA Spectrum‑6 Ethernet | • 基于 Spectrum‑6 交换机和 ConnectX‑9 SuperNIC 构建 • 可预测的高性能横向和纵向扩展连接 • 为 AI 工作负载典型的“东西向”流量模式进行优化 | 依赖标准 Ethernet 协议的 AI 工厂 |
打造千兆瓦 AI 工厂
这些创新体现了 Rubin 平台的极致代码设计。通过精通拥塞控制和性能隔离,NVIDIA 正在为下一波千兆瓦 AI 工厂铺路。这种整体方法确保随着 AI 模型复杂度的提升,网络结构仍然是加速的催化剂,而非限制因素。
NVIDIA 软件推动 AI 工厂运营和部署
NVIDIA Mission Control
它是什么 – 用于基于 NVIDIA Blackwell 的 DGX 系统(亦可用于基于 Rubin 的 DGX 系统)的 AI 驱动数据中心运营与编排软件。
关键功能
- 自动化部署配置并与设施系统集成。
- 管理集群、工作负载和资源调度。
基础设施收益
- 加强对 NVIDIA Rubin 冷却和电力事件的控制。
- 提升弹性并加快对事故的响应(例如,快速泄漏检测)。
- 获取 NVIDIA 最新的效率创新。
- 自动恢复,以最大化 AI 工厂的生产力。
了解更多关于 NVIDIA Mission Control →
NVIDIA AI Enterprise 平台
支持平台 – 所有 NVIDIA DGX 系统。
包含内容
- NVIDIA NIM – 为开发者提供的一套生成式 AI 微服务。
- 预训练的开源模型,如 NVIDIA Nemotron‑3 系列。
- 相关数据、库和工具,帮助快速进行 AI 开发。
探索 NVIDIA AI Enterprise →
NVIDIA NIM 微服务详情 →
通过将智能的端到端软件与 DGX 硬件相结合,NVIDIA 使企业能够运行更高效、更具弹性且更易管理的 AI 工厂。
DGX SuperPOD:工业 AI 的前进之路
DGX SuperPOD 长期以来一直是大规模 AI 基础设施的蓝图。Rubin 平台的到来将成为新一代 AI 工厂的启动平台——这些系统旨在跨越数千个步骤进行推理,并以显著降低的成本提供智能,帮助组织构建下一波前沿模型、多模态系统和具备代理能力的 AI 应用。
可用性
NVIDIA DGX SuperPOD 搭配 DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统将在今年下半年上市。
请参阅关于软件产品信息的声明。