Nvidia、Groq 与石灰石赛跑实时 AI:企业为何在此赢或输

发布: (2026年2月16日 GMT+8 02:29)
9 分钟阅读

Source: VentureBeat

(请提供需要翻译的正文内容,我将为您翻译成简体中文,并保持原有的格式和 markdown 语法。)

从远处的沙漠中望去,吉萨大金字塔看起来像一个完美、光滑的几何体——一座指向星辰的流线型三角形。

然而,站在金字塔底部时,光滑的幻象消失了。你会看到巨大的、锯齿状的石灰岩块。这不是斜坡,而是楼梯。

下次当你听到未来学家谈论指数增长时,请记住这一点。

英特尔联合创始人戈登·摩尔(摩尔定律)在 1965 年曾被广为引用,他说微芯片上的晶体管数量每年翻一番。另一位英特尔高管大卫·豪斯随后将这一说法修正为“计算能力每 18 个月翻一番”。有一段时间,英特尔的 CPU 是该定律的典型代表——也就是说,直到 CPU 性能的增长像石灰岩块一样趋于平缓

然而,如果你放大视角,下一块石灰岩已经存在——计算能力的增长仅仅是从 CPU 转移到了 GPU 领域。英伟达 CEO 黄仁勋(Jensen Huang)布局长远,最终成为强有力的赢家,他最初以游戏为垫脚石,随后是计算机视觉,最近又进入生成式 AI。

平滑增长的幻觉

技术增长充满了冲刺和平台期,生成式 AI 也不例外。当前的浪潮是由 transformer 架构驱动的。引用 Anthropic 总裁兼联合创始人 Dario Amodei 的话:

“指数增长会一直持续,直到它不再持续。每一年我们都会想,‘事情不可能一直保持指数增长’,但每一年它仍然如此。”

但正如 CPU 进入平台期后 GPU 接管一样,我们也看到 LLM 增长正在再次转变范式的迹象。例如,2024 年底,DeepSeek 通过使用 Mixture‑of‑Experts(MoE)技术,在几乎不可想象的小预算下训练出世界级模型,令全球惊讶。

你可能还记得最近看到该技术被提及的地方:Nvidia 的 Rubin 发布会。该技术包括:

“…最新一代的 Nvidia NVLink 互连技术… 用于加速具备代理能力的 AI、先进推理以及大规模 MoE 模型推理,成本可降低至每个 token 的 10 倍以下。”

Jensen 明白,要实现那令人向往的计算指数增长,已经不再是单纯的蛮力。有时需要彻底改变架构,以铺设下一个跨越的基石。

延迟危机:Groq 的定位

这段冗长的介绍把我们带到了 Groq

2025 年 AI 推理能力的最大提升来源于“推理时计算”——通俗来说,就是“让模型思考更长的时间”。但时间就是金钱。消费者和企业不喜欢等待。

Groq 在此发挥作用,以其闪电般的推理速度。如果将 DeepSeek 等模型的架构效率与 Groq 的极高吞吐量相结合,就能让前沿智能触手可及。通过更快地执行推理,你可以 out‑reason 竞争模型,为客户提供“更智能”的系统,而无需承担延迟的惩罚。

从通用芯片到推理优化

过去十年,GPU 一直是每个 AI 钉子的通用锤子。你使用 H100 来训练模型;你使用 H100(或精简版)来运行模型。但随着模型转向 “系统 2” 思考——即 AI 在回答前进行推理、自我纠正和迭代——计算工作负载也在改变。

  • 训练 需要大规模并行的蛮力计算。
  • 推理,尤其是推理模型,需要更快的顺序处理。它必须即时生成 token,以促进复杂的思考链,而不让用户等待数分钟才得到答案。

Groq 的 LPU(语言处理单元) 架构消除了在小批量推理期间困扰 GPU 的内存带宽瓶颈,实现闪电般快速的推理。

下一波增长的引擎

对于 C‑层管理者来说,这种潜在的融合解决了“思考时间”延迟危机。想想 AI 代理的期望:我们希望它们能够自主预订航班、编写完整的应用程序、以及检索法律先例。为了可靠地实现这些功能,模型可能需要生成 10,000 个内部“思考标记” 来在向用户输出单个词之前验证自己的工作。

  • 在标准 GPU 上: 10,000 个思考标记可能需要 20 – 40 秒。用户会感到无聊并离开。
  • 在 Groq 上: 同样的思考链在 不到 2 秒 内完成。

如果 Nvidia 将 Groq 的技术整合进来,他们就解决了“等待机器人思考”的问题,保留了 AI 的魔力。正如他们从渲染像素(游戏)转向渲染智能(生成式 AI),现在他们将进一步实现实时渲染 推理

此外,这还会形成强大的软件护城河。Groq 最大的障碍一直是软件栈;而 Nvidia 最大的资产是 CUDA。如果 Nvidia 将其生态系统围绕 Groq 的硬件进行包装,就相当于挖了一条竞争对手难以跨越的宽阔护城河。他们将提供通用平台:训练 的最佳环境 以及 运行(Groq/LPU) 的最高效环境。

将这种原始推理能力与下一代开源模型(如传闻中的 DeepSeek 4)相结合,就能提供在成本、性能和速度上与当今前沿模型相匹敌的方案。这为 Nvidia 开辟了机会——从直接以自有云服务进入推理业务,到继续为数量指数级增长的客户提供动力。

金字塔的下一步

回到我们开篇的比喻:AI 的“指数”增长并不是原始 FLOP 的平滑曲线;它是一段段被突破的瓶颈阶梯。

瓶颈解决方案
1我们计算速度不够快。GPU
2我们训练得不够深入。Transformer architecture
3我们“思考”速度不够快。Groq’s LPU

黄仁勋从未害怕攀登下一个块。

“吞噬自家的产品线以掌控未来。通过验证 Groq,英伟达不仅仅是买下一颗更快的芯片;他们将把下一代智能带给大众。”
Andrew Filev, Zencoder 创始人兼 CEO

欢迎来到 VentureBeat 社区!

我们的客座投稿计划是技术专家分享洞见并提供中立、非利益冲突的深度解析,涉及 AI、数据基础设施、网络安全以及其他塑造企业未来的前沿技术。

我们期待您的贡献!

0 浏览
Back to Blog

相关文章

阅读更多 »