Tokenmaxxing 辩论没有抓住要点

发布: 10小时前 (2026年4月23日 GMT+8 20:05)

7 分钟阅读

Source: Dev.to

请提供您希望翻译的正文内容，我将把它翻译成简体中文。

介绍

Jensen Huang 说，每位工程师每天应该消耗 100,000 个 token。
Shopify 的首席技术官说，真正的指标是你如何使用它们。两者皆是正确的。两者亦都危险。

Tokenmaxxing 叙事

“tokenmaxxing” 讨论在黄的主题演讲声明后迅速升温：如果你的年薪 20 万美元的工程师一年没有消耗六位数的 token，你就没有充分利用 AI。逻辑看似合理——token 越多 = AI 辅助越多 = 生产力越高。但事实并非如此。

Shopify 的 Mikhail Parakhin 负责运营全球最 AI 密集的工程组织之一。他们的内部数据表明，2025 年 12 月是一个拐点，日活跃使用量出现垂直上升。然而，分布极度倾斜：前 10 % 的用户消耗的 token 量呈指数级高于后 75 % 的用户。如果这种趋势持续下去，最终会出现 “一个人消耗所有 token” 的局面。

这就是原始使用量指标的问题所在：它们优化的是动作，而不是进步。

反模式：令牌密集型工作流

Parakhin 描述了一种 并行运行多个相互不通信的代理 的反模式。这会高效地消耗令牌——如果你的目标是燃烧令牌的话。没有迭代的并行生成不过是昂贵的掷骰子。

实际上，根据 Shopify 的数据，深度优于广度 才有效：

串行研究循环 —— 一个代理构建，另一个使用不同模型进行批评，第一位根据反馈进行修订。
更高的延迟，产生更高质量，减少在死胡同上浪费的令牌。

这映射到生产系统：基准分数最高的编码模型往往会产生臃肿的差异（例如，GPT‑5.4 过度编辑；Opus 4.6 欠编辑）。真正重要的评估指标不是 pass@1 —— 而是修复是否需要触及三个文件还是三十个文件。认知复杂度胜过令牌计数。

将令牌预算制度化为关键绩效指标

当令牌预算成为关键绩效指标时，工程师会开始针对该指标进行优化：

微服务的复兴 – 让团队能够独立发布，并在并行情况下消耗更多令牌。
PR 审核队列堵塞 – 并非因为人工审查慢，而是 AI 生成代码的量超出了任何审查能力。

Shopify 的内部解决方案是把更多资源花在审查上，而不是生成上。他们的 批评‑生成令牌比例 故意与大多数团队相反。验证使用最强大的模型（Opus 4.6、GPT‑5.4 Pro），而生成则既便宜又快速。验证过程则慢且昂贵。

转变度量标准：从消费到结果

方向正确的论点是我们需要在开发循环中投入更多的 AI 计算，但把它表述为“每位工程师的 token 预算”会产生错误的激励。它暗示消费是目标，而不是结果。

这与 2000 年代的代码行数（LOC）度量类似。我们痛苦地认识到，代码越多意味着 bug 越多、维护成本越高、技术债务越大。当我们开始衡量环路复杂度、测试覆盖率和部署频率时，LOC 就不再是虚荣指标。Token 消耗也需要同样的演进。

关键在于已部署价值与 token 支出的比例。

一个 50 token 的提示修复了生产事故，胜过 50,000 token 的投机性架构探索。
一个在合并前捕获安全缺陷的批评循环，其价值超过十个并行代理生成的竞争实现。

基础设施的赌注不仅是更大的上下文窗口或更便宜的推理，而是 基于追踪的评估系统，能够理解到底是什么真正推动了成果。Parakhin 指出，Shopify 正在围绕以下内容构建内部遥测：

PR 合并速度
每次 AI 生成变更的回滚率

——而不是“每位工程师消耗的 token”。

正确方法的好处

正确实施的团队能够获得叠加的优势：

代码库更整洁，因为批评代理防止了混乱。
部署流水线更快速，因为审查瓶颈被自动化处理，而不会被压垮。
工程师将 token 用于收敛的迭代循环，而不是分散的并行分支。

如果你在本季度制定 AI 预算，考虑换个角度提问：

与其问“我们能负担多少 token”，不如问 “我们的批评‑生成比例是多少？”
与其跟踪消耗量，不如跟踪 从提示到产出的转化率。

结论

Tokenmaxxing 是一个陷阱。获胜的团队是 令牌最小化者——最大化每个令牌的输出，而不是每美元的令牌数。

Tokenmaxxing 辩论没有抓住要点

介绍

Tokenmaxxing 叙事

反模式：令牌密集型工作流

将令牌预算制度化为关键绩效指标

转变度量标准：从消费到结果

正确方法的好处

结论

相关文章

Understanding Transformers 第12部分：构建解码器层

海军上将刚刚在参议院议场引用了我们的论文

Voice AI 在生产环境：从 RunPod 到托管 Kubernetes

Vercel 被黑客入侵是因为一名员工在 OAuth 提示上点击了“Allow”。我们都这么做。