随着AI变得更加复杂,模型构建者依赖NVIDIA

发布: (2025年12月12日 GMT+8 03:19)
5 min read

Source: NVIDIA AI Blog

预训练:智能的基石

得益于三条规模定律——预训练、后训练和测试时规模,AI 模型的能力不断提升。推理模型在推理期间使用计算来处理复杂查询,依赖多个网络协同工作,现已无处不在。

但预训练和后训练仍是智能的基石。它们是让推理模型更聪明、更有用的核心。要实现这一点需要规模——从头训练前沿模型并非小事,需要成千上万,甚至数十万块 GPU 高效协同工作。

如此规模要求在多个维度上达到卓越:世界级加速器、跨规模升级、横向扩展以及日益多样化的跨架构高级网络,加上完整优化的软件栈。简而言之,需要一个为大规模性能交付而专门构建的基础设施平台。

与 NVIDIA Hopper 架构相比,NVIDIA GB200 NVL72 系统在最新的 MLPerf Training 行业基准中,对最大模型实现了 3 倍更快的训练性能,并且 几乎 2 倍的性价比提升来源)。

NVIDIA GB300 NVL72 与 NVIDIA Hopper 相比,提供 超过 4 倍的加速MLPerf 基准)。

这些性能提升帮助 AI 开发者缩短开发周期,更快部署新模型。

模型验证:覆盖所有模态

当今大多数领先的大语言模型都是在 NVIDIA 平台上训练的。AI 不仅仅是文本——NVIDIA 支持语音、图像、视频生成以及生物学、机器人等新兴领域的开发。

  • Evo 2 解码基因序列(博客)。
  • OpenFold 3 预测 3D 蛋白质结构。
  • Boltz‑2 模拟药物相互作用,帮助研究人员更快识别有前景的候选药物。

在临床方面,NVIDIA Clara 合成模型生成逼真的医学图像,以推进筛查和诊断,同时不暴露患者数据。

Runway、Inworld 等公司使用 NVIDIA 基础设施进行训练。Runway 最近宣布 Gen‑4.5,这是一款在 Artificial Analysis 排行榜上名列前茅的前沿视频生成模型。该模型针对 NVIDIA Blackwell 进行优化,整个研发、预训练、后训练和推理过程全部在 NVIDIA GPU 上完成。

Runway 还推出了 GWM‑1,这是一款在 NVIDIA Blackwell 上训练的最先进通用世界模型,旨在实时模拟现实。它具备交互性、可控性和通用性,可应用于视频游戏、教育、科学、娱乐和机器人等领域。

基准测试说明了原因。MLPerf 作为业界标准的训练性能基准,展示了 NVIDIA 的广度:在最新一轮中,NVIDIA 在所有七项 MLPerf Training 5.1 基准中均提交了结果(详情),体现了强大的性能和多样性。它是唯一在每个类别都提交结果的平台。

NVIDIA 对多样化 AI 工作负载的支持帮助数据中心更高效地利用资源。Black Forest Labs、Cohere、Mistral、OpenAI、Reflection 和 Thinking Machines Lab 等 AI 实验室均在 NVIDIA Blackwell 平台上进行训练。

NVIDIA Blackwell 在云端和数据中心的布局

NVIDIA Blackwell 已在主要云服务提供商、neo‑cloud 以及服务器制造商处广泛可用。NVIDIA Blackwell Ultra 提供了额外的计算、内存和架构改进,现正由服务器制造商和云服务提供商陆续推出。

包括 Amazon Web Services、CoreWeave、Google Cloud、Lambda、Microsoft Azure、Nebius、Oracle Cloud Infrastructure 和 Together AI 在内的主要云服务提供商和 NVIDIA 云合作伙伴,已经提供了基于 NVIDIA Blackwell 的实例,确保在预训练规模继续扩大时能够提供可扩展的性能。

从前沿模型到日常 AI,未来正建立在 NVIDIA 之上。

了解更多关于 NVIDIA Blackwell 平台的信息。

Back to Blog

相关文章

阅读更多 »

利用 GPT-5.2 推动科学与数学

GPT-5.2 是 OpenAI 迄今为止在数学和科学领域最强大的模型,在 GPQA Diamond 和 FrontierMath 等基准上实现了新的最先进成果。本文…

2025-12-07 每日 AI 新闻

模型竞争与研究突破——据报道,OpenAI 正在加速发布 GPT‑5.2,以对抗 Google 的 Gemini 3,强调更强的推理,spe...