Nvidia、Groq 与石灰石赛跑实时 AI：企业为何在此赢或输

发布: 3天前 (2026年2月16日 GMT+8 02:29)

9 分钟阅读

Source: VentureBeat

（请提供需要翻译的正文内容，我将为您翻译成简体中文，并保持原有的格式和 markdown 语法。）

从远处的沙漠中望去，吉萨大金字塔看起来像一个完美、光滑的几何体——一座指向星辰的流线型三角形。

然而，站在金字塔底部时，光滑的幻象消失了。你会看到巨大的、锯齿状的石灰岩块。这不是斜坡，而是楼梯。

下次当你听到未来学家谈论指数增长时，请记住这一点。

英特尔联合创始人戈登·摩尔（摩尔定律）在 1965 年曾被广为引用，他说微芯片上的晶体管数量每年翻一番。另一位英特尔高管大卫·豪斯随后将这一说法修正为“计算能力每 18 个月翻一番”。有一段时间，英特尔的 CPU 是该定律的典型代表——也就是说，直到 CPU 性能的增长像石灰岩块一样趋于平缓。

然而，如果你放大视角，下一块石灰岩已经存在——计算能力的增长仅仅是从 CPU 转移到了 GPU 领域。英伟达 CEO 黄仁勋（Jensen Huang）布局长远，最终成为强有力的赢家，他最初以游戏为垫脚石，随后是计算机视觉，最近又进入生成式 AI。

平滑增长的幻觉

技术增长充满了冲刺和平台期，生成式 AI 也不例外。当前的浪潮是由 transformer 架构驱动的。引用 Anthropic 总裁兼联合创始人 Dario Amodei 的话：

“指数增长会一直持续，直到它不再持续。每一年我们都会想，‘事情不可能一直保持指数增长’，但每一年它仍然如此。”

但正如 CPU 进入平台期后 GPU 接管一样，我们也看到 LLM 增长正在再次转变范式的迹象。例如，2024 年底，DeepSeek 通过使用 Mixture‑of‑Experts（MoE）技术，在几乎不可想象的小预算下训练出世界级模型，令全球惊讶。

你可能还记得最近看到该技术被提及的地方：Nvidia 的 Rubin 发布会。该技术包括：

“…最新一代的 Nvidia NVLink 互连技术… 用于加速具备代理能力的 AI、先进推理以及大规模 MoE 模型推理，成本可降低至每个 token 的 10 倍以下。”

Jensen 明白，要实现那令人向往的计算指数增长，已经不再是单纯的蛮力。有时需要彻底改变架构，以铺设下一个跨越的基石。

延迟危机：Groq 的定位

这段冗长的介绍把我们带到了 Groq。

2025 年 AI 推理能力的最大提升来源于“推理时计算”——通俗来说，就是“让模型思考更长的时间”。但时间就是金钱。消费者和企业不喜欢等待。

Groq 在此发挥作用，以其闪电般的推理速度。如果将 DeepSeek 等模型的架构效率与 Groq 的极高吞吐量相结合，就能让前沿智能触手可及。通过更快地执行推理，你可以 out‑reason 竞争模型，为客户提供“更智能”的系统，而无需承担延迟的惩罚。

从通用芯片到推理优化

过去十年，GPU 一直是每个 AI 钉子的通用锤子。你使用 H100 来训练模型；你使用 H100（或精简版）来运行模型。但随着模型转向 “系统 2” 思考——即 AI 在回答前进行推理、自我纠正和迭代——计算工作负载也在改变。

训练需要大规模并行的蛮力计算。
推理，尤其是推理模型，需要更快的顺序处理。它必须即时生成 token，以促进复杂的思考链，而不让用户等待数分钟才得到答案。

Groq 的 LPU（语言处理单元） 架构消除了在小批量推理期间困扰 GPU 的内存带宽瓶颈，实现闪电般快速的推理。

下一波增长的引擎

对于 C‑层管理者来说，这种潜在的融合解决了“思考时间”延迟危机。想想 AI 代理的期望：我们希望它们能够自主预订航班、编写完整的应用程序、以及检索法律先例。为了可靠地实现这些功能，模型可能需要生成 10,000 个内部“思考标记” 来在向用户输出单个词之前验证自己的工作。

在标准 GPU 上： 10,000 个思考标记可能需要 20 – 40 秒。用户会感到无聊并离开。
在 Groq 上： 同样的思考链在 不到 2 秒 内完成。

如果 Nvidia 将 Groq 的技术整合进来，他们就解决了“等待机器人思考”的问题，保留了 AI 的魔力。正如他们从渲染像素（游戏）转向渲染智能（生成式 AI），现在他们将进一步实现实时渲染推理。

此外，这还会形成强大的软件护城河。Groq 最大的障碍一直是软件栈；而 Nvidia 最大的资产是 CUDA。如果 Nvidia 将其生态系统围绕 Groq 的硬件进行包装，就相当于挖了一条竞争对手难以跨越的宽阔护城河。他们将提供通用平台：训练的最佳环境以及运行（Groq/LPU）的最高效环境。

将这种原始推理能力与下一代开源模型（如传闻中的 DeepSeek 4）相结合，就能提供在成本、性能和速度上与当今前沿模型相匹敌的方案。这为 Nvidia 开辟了机会——从直接以自有云服务进入推理业务，到继续为数量指数级增长的客户提供动力。

金字塔的下一步

回到我们开篇的比喻：AI 的“指数”增长并不是原始 FLOP 的平滑曲线；它是一段段被突破的瓶颈阶梯。

块	瓶颈	解决方案
1	我们计算速度不够快。	GPU
2	我们训练得不够深入。	Transformer architecture
3	我们“思考”速度不够快。	Groq’s LPU

黄仁勋从未害怕攀登下一个块。

“吞噬自家的产品线以掌控未来。通过验证 Groq，英伟达不仅仅是买下一颗更快的芯片；他们将把下一代智能带给大众。”
— Andrew Filev, Zencoder 创始人兼 CEO

欢迎来到 VentureBeat 社区！

我们的客座投稿计划是技术专家分享洞见并提供中立、非利益冲突的深度解析，涉及 AI、数据基础设施、网络安全以及其他塑造企业未来的前沿技术。

了解更多 关于我们的客座投稿计划：
https://venturebeat.com/category/DataDecisionMakers
投稿指南：
https://venturebeat.com/guest-posts

我们期待您的贡献！

Nvidia、Groq 与石灰石赛跑实时 AI：企业为何在此赢或输

从远处的沙漠中望去，吉萨大金字塔看起来像一个完美、光滑的几何体——一座指向星辰的流线型三角形。

平滑增长的幻觉

延迟危机：Groq 的定位

从通用芯片到推理优化

下一波增长的引擎

金字塔的下一步

欢迎来到 VentureBeat 社区！

相关文章

当准确的 AI 仍然危险地不完整

OpenAI 收购 OpenClaw 标志着 ChatGPT 时代走向终结的开端

Qodo 2.1 解决了您的编码代理的“失忆”问题，使其精度提升 11%

SurrealDB 3.0 想用一个取代你的五数据库 RAG 技术栈