每百万令牌的价格在骗你

发布: 1天前 (2026年3月5日 GMT+8 09:57)

8 分钟阅读

Source: Dev.to

《每百万标记的价格在欺骗你》封面图

引言

大约 9 个月前，我在构建一个 RAG 系统（对于不熟悉的人来说，它是一种用于 AI 代理的增强记忆系统）。其中一个代理流程需要语义相似度，我使用 GPT‑4o 来运行它，因为它是 OpenAI 的旗舰模型。最好的模型，最好的结果，对吧？

我决定实际测试一下这个假设。经过几天的系统性测试，我发现一个成本大约 低 10 倍 的模型（当时的 GPT‑4.1‑mini）在该特定任务上给出了相同甚至更好的结果。并不是略微提升，而是显著更好——在我原本认为必须使用最新、最昂贵选项的任务上。

这次经历动摇了我对 AI 模型选择的认知，随后几个月我一直在深入探讨 为什么会出现这种情况 以及 它的普遍程度。

每个 AI 提供商都会公布 每百万 token 的价格（输入 token、输出 token，或许还有缓存费率）。这看起来很简单，但在实际生产环境中，这个数字几乎没有意义，因为它忽略了两件会彻底改变计算结果的因素。

分词方式 – 不同模型对相同输入的分词方式不同。GPT‑5、Claude Sonnet 4.5、Gemini 3.0 Flash 等会对完全相同的提示产生不同的 token 数量。有时差距在 10‑15 %；有时甚至更大。因此，“每百万 token 的价格”从一开始就是在比较不同的东西，因为一个模型的百万 token 并不等同于另一个模型的同等工作量。
输出量 – 这是更大的因素。推理密集、链式思考的模型会生成大量 token。像 DeepSeek Reasoner、gpt‑5.2‑pro 或 Claude Opus 4.6 这样的模型会一步步思考问题，产生大量 token。你向两个模型提出同一个问题：一个给出 200 token 的答案，另一个给出 3000 token 的推理过程再加上 200 token 的答案。第二个模型每百万 token 的单价可能更低，但在实际任务上仍会让你 花费 5 倍。

我多次看到这种情况：在定价页面上标称“便宜 10 倍”的模型，实际使用时因为处理工作负载的方式而更贵。相反，看起来价格高的模型因为 token 使用更高效，实际每个任务的成本可能更低。

选择模型时的直觉是查看排行榜：MMLU、HumanEval、LMArena、LiveBench。这些对了解模型的通用能力很有帮助，但它们对你的具体使用场景一无所知。

而且这些基准测试都没有考虑成本。你可能在使用排行榜上的“最佳”模型，却花费了 10 倍 的费用，因为低三层的模型在你的特定工作负载上同样表现出色——甚至更好。

对你的任务的准确性 – 不是通用基准。使用你的实际提示、数据和预期输出。
真实的 token 成本 – 不是“每百万的价格”，而是模型在每个任务、每次调用、每次流水线运行中的实际费用。这包括输入 token（因分词器而异）、输出 token（受模型行为影响极大）以及任何计费的推理 token。
延迟 – 首个 token 的生成时间以及整体完成时间。对于代理式工作流或面向用户的功能，这与成本同等重要。
一致性 – 有些模型 70 % 的时间输出精彩，30 % 的时间却是垃圾；而有些模型则乏味但可靠。对于生产环境，乏味且可靠的模型总是胜出。

获取这些数据需要在多个模型上实际运行你的工作负载——不是一次性运行，也不是使用单一提示，而是要系统化、按计划进行，并有足够的变体以获得统计上有意义的结果。大多数团队不会这么做，因为这既繁琐又耗时。他们会根据看起来有效的结果和排行榜挑选“感觉合适”的模型，直接上线，之后不再回头。

于是你会发现自己在 API 调用上花费 $10 k/月，而 $2 k 就能获得相同的输出质量。

AI 模型市场发展迅速：每隔几周就有新模型出现，价格下降，能力跃迁，新的供应商加入。三个月前对你的使用场景最优的模型，今天可能已经不再最优。

唯一真正了解哪种模型最适合你的方法是在你的数据上、使用你的提示进行测试，并衡量对你特定情况重要的指标。其他一切都是猜测。

我在一次硬碰硬的经历中领悟到这一点——我发现自己在一个本以为必须使用旗舰模型的流水线中付出了 10 倍的费用。从那以后，我养成了每当有重大新版本发布时重新评估模型选择的习惯。每一次的成本节约和性能提升都让这项工作值得投入。

Marc Kean Paker 是 OpenMark 的创始人，这是一个 AI 模型基准测试平台，旨在帮助团队摆脱排行榜猜测，转向确定性、成本感知的模型选择。