Intelligence-per-Token:为何 AI 成本问题在 2026 年迫使行业反思
Source: Dev.to

引言
运行大型模型成本高昂。业界人人皆知,但一段时间内这被视为别人的问题——未来的问题,等收入赶上后再说。到了 2026 年,账单已经到期。
现在流行的说法是 “每令牌智能度”。不是抽象的能力,而是每美元推理支出所产生的有用输出。这是一个不那么光鲜的指标,这正是它的意义所在。经过多年追逐基准测试,实验室被迫思考他们构建的东西是否真的在经济上可行。
TurboQuant
谷歌最近的答案是 TurboQuant,一种专为长上下文推理设计的压缩算法。向模型喂入 10 万+ 令牌的提示——进行严肃文档分析所需的输入——一直是内存密集型的。在大规模时,提供这些请求的成本会迅速飙升。
量化本身并不新鲜。通过降低模型权重的数值精度来削减内存和计算开销已经是常规做法。谷歌在 TurboQuant 中的不同之处在于直接在注意力层进行压缩,而注意力层是长上下文处理期间内存使用激增的地方。这是针对特定瓶颈的定向修复,比起宽泛的量化方案更具吸引力。
它在生产环境中是否能达到他们声称的边际收益是另一个问题。但从方向上看,这是在解决正确的问题。
Sora
更为艰难的故事是 Sora。据报道,OpenAI 在 2026 年 3 月撤下了视频生成工具,计算成本大约为 每日 1500 万美元,而收入远未覆盖。对于一款曾引发真正兴奋的产品来说,这样的数字难以维系。
视频生成的成本本身就比文本高得多。每秒输出需要大量推理计算,而使文本模型日益廉价的效率提升并不能直接转化为视频。你可以压缩、可以蒸馏,但在某个阶段,你仍然需要搬运巨量数据才能生成几秒的画面。
Sora 的退出动摇了更广阔的视频生成领域。Runway、Pika 等公司都在观望。没有人愿意直说的问题是:在当前的计算成本下,消费者视频生成是否真的可行,还是只有在有人愿意承担多年亏损、等待硬件赶上的情况下才行得通。
这让局面如何
TurboQuant 与 Sora 的停摆是对同一根本压力的两种回应。一种是押注更聪明的压缩可以让昂贵的模型变得可负担;另一种则表明当压缩不足以解决问题时,就直接砍掉产品。
这很可能会加速对更小、更专用模型的投资——不是因为它们更惊艳,而是因为它们运行成本更低,且更容易围绕它们构建商业模式。能力的讨论不会消失。但首次出现的是,它与一个更为乏味的问题共享舞台:你能以合理的价格提供这项服务吗?