全新 NVIDIA Nemotron 3 Super 为 Agentic AI 提供 5 倍更高吞吐量
Source: NVIDIA AI Blog
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!
NVIDIA Nemotron 3 Super
今天发布的 NVIDIA Nemotron 3 Super 是一个拥有 1200 亿参数的开源模型,其中 120 亿为活跃参数。它旨在大规模运行复杂的、具备自主性的 AI 系统,为自主代理提供高级推理和高精度任务完成能力。
AI‑Native Companies
- Perplexity – 在 Computer 中提供 Nemotron 3 Super 用于搜索,并作为 20 种编排模型之一。
- Software‑development agents –
- CodeRabbit
- Factory
- Greptile
这些平台将 Nemotron 3 Super(以及自有模型)集成进来,以实现更高的准确率并降低成本。
- Life‑sciences & frontier‑AI – Edison Scientific 和 Lila Sciences 将使用该模型为其代理提供深度文献检索、数据科学工作流和分子理解等能力。
Enterprise Software Platforms
部署并定制 Nemotron 3 Super 的行业领袖包括:
- Amdocs – 电信工作流自动化
- Palantir – 以数据为中心的 AI 解决方案
- Cadence – 半导体设计辅助
- Dassault Systèmes – 产品开发流水线
- Siemens – 用于制造和网络安全的 Fuse EDA AI System
这些平台利用该模型在电信、网络安全、半导体设计和制造等领域实现复杂工作流的自动化。
多代理应用的挑战
上下文爆炸
- 多代理工作流可能产生 高达 15× 的 token,相较于标准聊天(每次交互都会重新发送完整历史、工具输出和中间推理)。
- 随着上下文的增长,成本会膨胀,并可能导致 目标漂移,即代理偏离原始目标。
思考税
- 复杂的代理必须在每一步进行推理。
- 对每个子任务都使用大模型会使多代理系统成本高、速度慢。
Nemotron 3 Super 如何解决这些问题
- 100 万 token 上下文窗口 – 代理可以在内存中保留整个工作流状态,显著降低与上下文相关的成本,并防止目标漂移。
- 效率与开放性 – 在 Artificial Analysis 的效率与开放性排名中位列第一,并在同等规模模型中拥有领先的准确率。
基准性能
- 为 NVIDIA AI‑Q 研究代理提供动力,该代理在以下榜单中位居 第一:
这些基准测试评估 AI 系统在大型文档集合中进行深入、多步骤研究并保持连贯推理的能力。
Nemotron 3 Super 为可扩展的高性能多代理 AI 树立了新标准。
混合架构
Nemotron 3 Super 采用 混合专家模型(MoE) 设计,融合了三项关键创新,较前代 Nemotron Super 模型实现了 最高 5 倍的吞吐量提升 和 2 倍的精度提升。
| 创新 | 功能说明 | 效益 |
|---|---|---|
| 混合架构 | 将 Mamba 层(用于提升内存和计算效率)与 Transformer 层(用于高级推理)相结合 | 内存和计算效率提升 4 倍 |
| MoE | 推理时仅激活 12 B(占总计 120 B 参数)的子模型 | 在保持模型容量的同时降低计算成本 |
| 潜在 MoE | 在生成下一个 token 时,以单个专家的成本触发 四个专家专员 | 在不增加延迟的情况下提升精度 |
| 多 Token 预测 | 并行预测多个未来 token | 推理速度提升 3 倍 |
NVIDIA Blackwell 平台
运行于 NVFP4 精度 —— 这可以降低内存占用,使推理 比 NVIDIA Hopper 上的 FP8 快最高 4 倍,且精度无任何损失。
开放权重、数据和配方
NVIDIA 正在发布 Nemotron 3 Super,并在宽松许可证下提供开放权重。开发者可以在工作站、数据中心或云端部署并定制它。
训练数据与方法论
- 使用前沿推理模型生成的合成数据进行训练。
- NVIDIA 公布了完整的方法论,包括:
- 10 + 万亿 token 的前后训练数据集。
- 15 个强化学习训练环境。
- 评估配方。
入门指南
研究人员可以使用 NVIDIA NeMo 平台来:
- 微调模型。
- 构建自己的模型和流水线。
在 Agentic 系统中的使用
Nemotron 3 Super 被构建用于在多代理系统中处理复杂子任务。
- 软件开发 – 代理可以一次性将整个代码库加载到上下文中,实现端到端的代码生成和调试,无需对文档进行分段。
- 金融分析 – 该模型可以在单个上下文中摄取数千页报告,消除在长对话中反复推理的需求,显著提升效率。
- 高风险工具调用 – Nemotron 3 Super 的高精度工具调用使自主代理能够可靠地导航庞大的函数库,防止在关键环境(如用于网络安全的自主安全编排)中出现执行错误。
Source: …
可用性
NVIDIA Nemotron 3 Super,属于 Nemotron 3 系列,可通过以下方式访问:
- NVIDIA 平台 – build.nvidia.com、Perplexity、OpenRouter 和 Hugging Face。
- 企业集成 – Dell Technologies 正在将该模型引入 Dell Enterprise Hub(位于 Hugging Face),以实现 Dell AI Factory 上的本地部署优化。HPE 也在其代理中心添加 NVIDIA Nemotron,以支持企业级代理 AI 的可扩展采用。
云服务提供商
- Google Cloud Vertex AI
- Oracle Cloud Infrastructure
- Amazon Web Services(即将通过 Amazon Bedrock 提供)
- Microsoft Azure
NVIDIA 云合作伙伴
- CoreWeave
- Crusoe
- Nebius
- Together AI
推理服务提供商
数据平台与服务
- Distyl
- Dataiku
- DataRobot
- Deloitte
- EY
- Tata Consultancy Services
该模型以 NVIDIA NIM 微服务的形式打包,可实现从本地系统到云端的部署。
保持最新
- 订阅 NVIDIA AI 新闻通讯
- 加入 NVIDIA 开发者社区
- 关注 NVIDIA AI:
探索自学视频教程和直播,尽在 NVIDIA AI YouTube 播放列表。