全新 NVIDIA Nemotron 3 Super 为 Agentic AI 提供 5 倍更高吞吐量

发布: (2026年3月12日 GMT+8 00:00)
8 分钟阅读

Source: NVIDIA AI Blog

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!

NVIDIA Nemotron 3 Super

今天发布的 NVIDIA Nemotron 3 Super 是一个拥有 1200 亿参数的开源模型,其中 120 亿为活跃参数。它旨在大规模运行复杂的、具备自主性的 AI 系统,为自主代理提供高级推理和高精度任务完成能力。

AI‑Native Companies

  • Perplexity – 在 Computer 中提供 Nemotron 3 Super 用于搜索,并作为 20 种编排模型之一。
  • Software‑development agents
    • CodeRabbit
    • Factory
    • Greptile
      这些平台将 Nemotron 3 Super(以及自有模型)集成进来,以实现更高的准确率并降低成本。
  • Life‑sciences & frontier‑AI – Edison Scientific 和 Lila Sciences 将使用该模型为其代理提供深度文献检索、数据科学工作流和分子理解等能力。

Enterprise Software Platforms

部署并定制 Nemotron 3 Super 的行业领袖包括:

  • Amdocs – 电信工作流自动化
  • Palantir – 以数据为中心的 AI 解决方案
  • Cadence – 半导体设计辅助
  • Dassault Systèmes – 产品开发流水线
  • Siemens – 用于制造和网络安全的 Fuse EDA AI System

这些平台利用该模型在电信、网络安全、半导体设计和制造等领域实现复杂工作流的自动化。

多代理应用的挑战

  1. 上下文爆炸

    • 多代理工作流可能产生 高达 15× 的 token,相较于标准聊天(每次交互都会重新发送完整历史、工具输出和中间推理)。
    • 随着上下文的增长,成本会膨胀,并可能导致 目标漂移,即代理偏离原始目标。
  2. 思考税

    • 复杂的代理必须在每一步进行推理。
    • 对每个子任务都使用大模型会使多代理系统成本高、速度慢。

Nemotron 3 Super 如何解决这些问题

  • 100 万 token 上下文窗口 – 代理可以在内存中保留整个工作流状态,显著降低与上下文相关的成本,并防止目标漂移。
  • 效率与开放性 – 在 Artificial Analysis 的效率与开放性排名中位列第一,并在同等规模模型中拥有领先的准确率。

基准性能

这些基准测试评估 AI 系统在大型文档集合中进行深入、多步骤研究并保持连贯推理的能力。

Nemotron 3 Super 为可扩展的高性能多代理 AI 树立了新标准。

混合架构

Nemotron 3 Super 采用 混合专家模型(MoE) 设计,融合了三项关键创新,较前代 Nemotron Super 模型实现了 最高 5 倍的吞吐量提升2 倍的精度提升

创新功能说明效益
混合架构Mamba 层(用于提升内存和计算效率)与 Transformer 层(用于高级推理)相结合内存和计算效率提升 4 倍
MoE推理时仅激活 12 B(占总计 120 B 参数)的子模型在保持模型容量的同时降低计算成本
潜在 MoE在生成下一个 token 时,以单个专家的成本触发 四个专家专员在不增加延迟的情况下提升精度
多 Token 预测并行预测多个未来 token推理速度提升 3 倍

NVIDIA Blackwell 平台

运行于 NVFP4 精度 —— 这可以降低内存占用,使推理 比 NVIDIA Hopper 上的 FP8 快最高 4 倍且精度无任何损失

开放权重、数据和配方

NVIDIA 正在发布 Nemotron 3 Super,并在宽松许可证下提供开放权重。开发者可以在工作站、数据中心或云端部署并定制它。

训练数据与方法论

  • 使用前沿推理模型生成的合成数据进行训练。
  • NVIDIA 公布了完整的方法论,包括:
    • 10 + 万亿 token 的前后训练数据集。
    • 15 个强化学习训练环境。
    • 评估配方。

入门指南

研究人员可以使用 NVIDIA NeMo 平台来:

  • 微调模型。
  • 构建自己的模型和流水线。

在 Agentic 系统中的使用

Nemotron 3 Super 被构建用于在多代理系统中处理复杂子任务。

  • 软件开发 – 代理可以一次性将整个代码库加载到上下文中,实现端到端的代码生成和调试,无需对文档进行分段。
  • 金融分析 – 该模型可以在单个上下文中摄取数千页报告,消除在长对话中反复推理的需求,显著提升效率。
  • 高风险工具调用 – Nemotron 3 Super 的高精度工具调用使自主代理能够可靠地导航庞大的函数库,防止在关键环境(如用于网络安全的自主安全编排)中出现执行错误。

Source:

可用性

NVIDIA Nemotron 3 Super,属于 Nemotron 3 系列,可通过以下方式访问:

  • NVIDIA 平台build.nvidia.comPerplexityOpenRouterHugging Face
  • 企业集成 – Dell Technologies 正在将该模型引入 Dell Enterprise Hub(位于 Hugging Face),以实现 Dell AI Factory 上的本地部署优化。HPE 也在其代理中心添加 NVIDIA Nemotron,以支持企业级代理 AI 的可扩展采用。

云服务提供商

  • Google Cloud Vertex AI
  • Oracle Cloud Infrastructure
  • Amazon Web Services(即将通过 Amazon Bedrock 提供)
  • Microsoft Azure

NVIDIA 云合作伙伴

推理服务提供商

数据平台与服务

  • Distyl
  • Dataiku
  • DataRobot
  • Deloitte
  • EY
  • Tata Consultancy Services

该模型以 NVIDIA NIM 微服务的形式打包,可实现从本地系统到云端的部署。

保持最新

探索自学视频教程和直播,尽在 NVIDIA AI YouTube 播放列表

0 浏览
Back to Blog

相关文章

阅读更多 »

什么是 Agentic AI?

什么是 Agentic AI?Agentic AI 指能够为实现目标而采取行动的 AI 系统,而不仅仅是产生单一响应。...的能力。

为代理优化内容

和 LLMs.txt 那个想法一样毫无用处。所有这些都是 AI 不需要的愚蠢抽象,因为 AI 和人类一样聪明,它们可以直接使用已经存在的东西。