领先的推理提供商通过在 NVIDIA Blackwell 上使用开源模型将 AI 成本降低至最高 10 倍

发布: (2026年2月13日 GMT+8 00:00)
11 分钟阅读

Source: NVIDIA AI Blog

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式、Markdown 语法和技术术语不变。

为什么代币成本重要

AI 驱动的交互——从医疗保健中的诊断洞察到游戏中的角色对话,再到自主客服代理——都建立在同一个智能单元上:一个 token

随着 AI 交互规模的扩大,企业不得不问自己:我们能负担更多的代币吗?
答案在于更好的 代币经济学——即降低每个代币成本的实践。

最近的 MIT 研究 表明,基础设施和算法的进步正以 每年最高 10 倍 的速度降低前沿性能的推理成本。

基础设施效率 = 更佳 Tokenomics

  • 如果印刷机能够在墨水、能源和机器成本仅略有增加的情况下,产出 10× 更多的页面,则每页成本会显著下降。

  • 同样,对 AI 基础设施的投资能够远超成本增长地提升 token 产出,从而实现 显著降低每个 token 的成本

Token output outpaces infrastructure cost, causing the cost of each token to drop.

谁在领跑?

领先的 inference 提供商已经在利用 NVIDIA Blackwell 平台 大幅降低 token 成本:

  • Baseten
  • DeepInfra
  • Fireworks AI
  • Together AI

这些提供商:

  1. 托管已达到前沿水平智能的先进 open‑source 模型。
  2. open‑source 智能与 NVIDIA Blackwell 的极致硬件‑软件协同设计相结合。
  3. 部署自研的优化推理栈。

结果如何?相较于之前的 NVIDIA Hopper 平台每个 token 的成本降低最高可达 10 倍,为各行各业的企业带来显著的成本节省。

要点

改进代币经济学不仅仅是技术上的微调——它是一个战略杠杆,使公司能够以可负担的方式扩展 AI 交互。通过采用如 NVIDIA Blackwell 这样的前沿基础设施,组织可以提供更丰富、更频繁的 AI 体验,同时保持成本在可控范围内。

医疗保健 – BasetenSully.ai

将 AI 推理成本降低 10 倍

在医疗领域,繁琐且耗时的任务(如医学编码、文档撰写和保险表单管理)会侵占医生可用于患者的时间。

Sully.ai 通过创建“AI 员工”来自动化医学编码和记录笔记等常规任务,以解决此问题。随着平台的扩展,其专有的闭源模型出现了三个主要瓶颈:

瓶颈影响
不可预测的延迟放慢实时临床工作流
推理成本上升成本增长快于收入
模型控制受限无法微调质量或进行更新

Sully.ai builds AI employees that handle routine tasks for physicians

解决方案

Sully.ai 转而使用 Baseten 的 Model API,在 NVIDIA Blackwell GPU 上部署开源模型(例如 gpt‑oss‑120b)。技术栈包括:

  • NVFP4 低精度数据格式,实现高效推理
  • NVIDIA TensorRT‑LLM 库,用于优化执行
  • NVIDIA Dynamo 推理框架,简化部署

Baseten 在观察到与之前基于 Hopper 的部署相比,Blackwell GPU 在每美元吞吐量上提升最高 2.5× 后,选择了该 GPU。

结果

指标改进
推理成本↓ 90 %(约 10 倍降低)
响应时间↑ 65 %(关键工作流更快,例如医学笔记生成)
医生节省时间> 3000 万分钟恢复

链接

游戏 — DeepInfraLatitude 将每标记成本降低 4 倍

Latitude 正在通过其 AI Dungeon 冒险故事游戏以及即将推出的 AI 驱动角色扮演平台 Voyage 构建 AI 原生游戏的未来,玩家可以在其中创建或探索世界,自由选择任何行动并自行编写故事。

挑战

  • 每一次玩家操作都会触发对大型语言模型(LLM)的推理请求。
  • 随着互动增加,成本会随之上升,但响应时间必须保持足够快,以确保体验流畅。

解决方案

Latitude 在 DeepInfra 的推理平台上运行大型开源模型,该平台由 NVIDIA Blackwell GPUTensorRT‑LLM 提供支持。

针对大规模 mixture‑of‑experts (MoE) 模型,DeepInfra 将每 百万标记的成本降低为:

平台每 1 M 标记成本
NVIDIA Hopper(基线)$0.20
Blackwell(FP16)$0.10
Blackwell(NVFP4,低精度)$0.05

结果: 在保持客户期望的准确性的前提下,每标记成本降低了

对 Latitude 的收益

  • 即使在流量高峰期间也能提供快速、可靠的响应。
  • 能够部署更强大的模型而不影响玩家体验。
  • 随着玩家互动增长,实现成本效益的扩展。

Latitude AI Dungeon – 实时叙事和图像生成
Latitude 的基于文本的冒险游戏 “AI Dungeon” 在玩家探索动态故事时实时生成叙事文本和图像。

Source:

Agentic Chat — Fireworks AI 与 Sentient Foundation 将 AI 成本降低最高 50 %

Sentient Labs 将 AI 开发者聚集在一起,构建强大的 开源推理 AI 系统。他们的使命是通过以下研究,加速在更难推理问题上的 AI 进展:

  • 安全自治
  • 代理架构
  • 持续学习

Sentient Chat

Sentient Chat 是 Sentient Labs 的首个应用。它:

  • 编排复杂的多代理工作流
  • 集成社区贡献的 十余个专用 AI 代理

由于单个用户查询可能触发一连串自主交互,该服务 对计算资源需求极大,会产生高昂的基础设施开销。

成本节约是如何实现的

Sentient Labs 迁移至 Fireworks AI 的推理平台,使用 NVIDIA Blackwell GPU。针对 Blackwell 优化的推理栈相比之前基于 Hopper 的部署,提供了 25‑50 % 更佳的成本效率

关键成果

  • 每块 GPU 的吞吐量更高 → 在相同成本下支持更多并发用户
  • 可扩展平台支撑了 24 小时内 180 万等待名单用户的病毒式增长
  • 在保持低延迟的同时,单周处理 560 万次查询

“凭借 Fireworks 的 Blackwell 优化推理栈,Sentient 相比之前基于 Hopper 的部署实现了 25‑50 % 更佳的成本效率。” – Sentient Labs

可视化概览

Sentient Chat 编排复杂的多代理工作流,并集成社区贡献的十余个专用 AI 代理。

了解更多

  • 阅读 Fireworks AI 上的完整案例。

客户服务 — Together AIDecagon 将成本降低 6 倍

使用语音 AI 的客服通话常常以挫败感收场:即使是轻微的延迟也会导致用户抢话、挂断或失去信任。

Decagon 为企业客户支持构建 AI 代理,语音是其最苛刻的渠道。公司需要能够在不可预测的流量负载下提供 亚秒级响应,同时保持 24/7 语音部署的 token 经济可行的基础设施。

解决方案

Together AI 在 NVIDIA Blackwell GPU 上为 Decagon 的多模型语音堆栈运行 生产推理。两家公司在以下关键优化上展开合作:

优化描述
Speculative decoding较小的“草稿”模型快速生成响应;更大的模型在后台验证准确性。
Conversation caching将经常重复的对话元素缓存,以加速响应生成。
Automatic scaling动态扩展在流量激增时处理请求而不降低性能。

结果

  • 响应时间: 大幅降低,实现无缝语音交互。
  • 每 token 成本: 相比之前基于 Hopper 的部署降低了

NVIDIA 在整个堆栈——包括计算、网络和软件——的极致协同设计,以及其合作伙伴生态系统,正在实现规模化下每 token 成本的巨大下降。这一势头将在 NVIDIA Rubin 平台 上继续,该平台将六颗新芯片集成到单一 AI 超级计算机中,提供 10× 性能10× 更低的 token 成本,相较于 Blackwell。

NVIDIA Rubin Platform

了解更多

探索 NVIDIA 的全栈推理平台,了解它如何为 AI 推理提供更佳的 token 经济性:

0 浏览
Back to Blog

相关文章

阅读更多 »