Mixture of Experts 为最智能的 Frontier AI 模型提供动力，在 NVIDIA Blackwell NVL72 上运行速度提升 10 倍

发布: 1个月前 (2025年12月4日 GMT+8 00:00)

9 min read

Source: NVIDIA AI Blog

前十名最智能的开源模型全部采用混合专家（Mixture‑of‑Experts）架构。
Kimi K2 Thinking、DeepSeek‑R1、Mistral Large 3 等在 NVIDIA GB200 NVL72 上的运行速度提升了 10 倍。

对当今几乎所有前沿模型进行内部观察，都会发现它们采用了混合专家（Mixture‑of‑Experts）（MoE）架构，这种架构模仿了人脑的效率。正如大脑会根据任务激活特定区域，MoE 模型将工作划分给专门的“专家”，并仅为每个AI token激活相关的专家。这使得在不成比例增加计算量的情况下，实现更快、更高效的 token 生成。

业界已经认识到这一优势。在独立的Artificial Analysis (AA) 排行榜上，前十名最智能的开源模型都使用 MoE 架构，包括 DeepSeek AI 的 DeepSeek‑R1、Moonshot AI 的 Kimi K2 Thinking、OpenAI 的 gpt‑oss‑120B 以及 Mistral AI 的 Mistral Large 3。

在生产环境中扩展 MoE 模型并保持高性能一直是极具挑战的任务。NVIDIA GB200 NVL72 系统的极致协同设计将硬件与软件优化深度结合，提供最大化的性能与效率，使得 MoE 模型的扩展既实用又简便。

Kimi K2 Thinking MoE 模型——在 AA 排行榜上被评为最智能的开源模型——在 NVIDIA GB200 NVL72 机架级系统上相较于 NVIDIA HGX H200 实现了 10 倍的性能提升。在为DeepSeek‑R1和 Mistral Large 3 MoE 模型提供的性能基础上，这一突破进一步凸显了 MoE 正成为前沿模型的首选架构——而 NVIDIA 的全栈推理平台则是释放其全部潜能的关键。

什么是 MoE，为什么它已成为前沿模型的标准？

直到最近，构建更智能 AI 的行业标准仍是构建更大、更密集的模型，这类模型会使用全部参数（如今最强大的模型往往拥有数千亿参数）来生成每个 token。虽然强大，但这种方法需要巨大的计算能力和能源，导致扩展困难。

正如人脑依赖特定区域处理不同的认知任务——无论是语言处理、物体识别还是数学求解——MoE 模型由若干专门的“专家”组成。对于任意 token，只有路由器选出的最相关专家会被激活。这种设计意味着，即使整体模型可能包含数千亿参数，生成一个 token 时只会使用其中一小部分——通常只有数百亿。

通过仅选择最关键的专家进行激活，MoE 模型在不成比例提升计算成本的前提下，实现了更高的智能性和适应性。这使得它们成为在每美元和每瓦特性能上都极具效率的 AI 系统的基石——在每单位能源和资本投入上产生显著更多的智能。

鉴于这些优势，MoE 快速成为前沿模型的首选架构也就不足为奇了。今年已有超过 60 % 的开源 AI 模型发布采用了 MoE。自 2023 年初以来，MoE 已推动模型智能提升近 70 倍——不断突破 AI 能力的极限。

一张标题为“Today’s Leading Frontier Models are Built on MoE”的气泡图，横轴为 2023 年 1 月至今的模型发布时间，纵轴为模型智能度。每个模型以气泡表示，气泡大小对应参数量，绿色代表混合专家（MoE），灰色代表密集架构。早期大多是小型、低智能的密集模型，而在 2025 年初标记为“Start of MoE Era”的虚线右侧，图表被大型绿色 MoE 气泡（如 Qwen 3 325B、Kimi‑K2、Hermes 4 405B、Llama 4 Maverick）主导，且在智能轴上更高。图例区分 MoE 与密集模型，比例尺展示气泡大小从 80 亿到 1 万亿参数不等。该图传达了 MoE 模型如今在前沿 AI 开发中的领先地位。

“我们两年前从 Mixtral 8x7B 开始的 OSS 混合专家架构的开创性工作，确保了先进智能既可访问又可持续，适用于广泛的应用场景，”Mistral AI 联合创始人兼首席科学家 Guillaume Lample 说。“Mistral Large 3 的 MoE 架构让我们能够在提升性能和效率的同时，大幅降低能源和计算需求，实现 AI 系统的规模化。”

通过极致协同设计克服 MoE 扩展瓶颈

前沿 MoE 模型规模庞大、复杂度高，单个 GPU 无法部署。要运行它们，需要将专家分布在多 GPU 上，这一技术称为 expert parallelism（专家并行）。即便在 NVIDIA H200 这样强大的平台上，部署 MoE 模型仍会遇到以下瓶颈：

内存限制——对每个 token，GPU 必须从高带宽内存中动态加载被选中专家的参数，导致内存带宽压力巨大。
延迟——专家之间需要进行近乎瞬时的全互联（all‑to‑all）通信以交换信息并形成最终答案。在 H200 上，若专家分布在超过八块 GPU 上，就必须通过更高延迟的规模化网络进行通信，限制了专家并行的收益。

解决方案：极致协同设计

NVIDIA GB200 NVL72 是一款机架级系统，配备 72 块 NVIDIA Blackwell GPU，协同工作如同一块巨大的 GPU，提供 1.4 exaflops 的 AI 性能和 30 TB 的高速共享内存。GPU 通过 NVLink Switch 互连，形成单一的大型 NVLink 互连结构，提供 130 TB/s 的 NVLink 带宽。

MoE 模型可以利用这一设计，将专家并行的规模远远超出以往限制——最多可在 72 块 GPU 上分布专家。

这种架构直接解决了 MoE 扩展瓶颈：

降低每块 GPU 上的专家数量——将专家分布在多达 72 块 GPU 上，可最大程度减轻每块 GPU 高带宽内存的参数加载压力，并为更多并发用户和更长的输入序列释放内存。
加速专家间通信——分布在 GPU 上的专家可以通过 NVLink 实时通信。NVLink Switch 还提供计算能力，将来自不同专家的信息合并，加快最终答案的生成。

Mixture of Experts 为最智能的 Frontier AI 模型提供动力，在 NVIDIA Blackwell NVL72 上运行速度提升 10 倍

什么是 MoE，为什么它已成为前沿模型的标准？

通过极致协同设计克服 MoE 扩展瓶颈

解决方案：极致协同设计

相关文章

机器人们的节日愿望成真：NVIDIA Jetson平台以节日价提供高性能Edge AI

游戏狂欢：GeForce NOW 为云端带来30款新游戏的节日欢乐

NVIDIA 与 AWS 扩大全栈合作伙伴关系，提供对未来创新至关重要的安全高性能计算平台

据报道，SoftBank 与 Nvidia 正在洽谈以 140 亿美元为 Skild AI 提供资金，几乎使其价值翻三倍