每百万令牌的价格在骗你

发布: (2026年3月5日 GMT+8 09:57)
8 分钟阅读
原文: Dev.to

Source: Dev.to

《每百万标记的价格在欺骗你》封面图

OpenMark

引言

大约 9 个月前,我在构建一个 RAG 系统(对于不熟悉的人来说,它是一种用于 AI 代理的增强记忆系统)。其中一个代理流程需要语义相似度,我使用 GPT‑4o 来运行它,因为它是 OpenAI 的旗舰模型。最好的模型,最好的结果,对吧?

我决定实际测试一下这个假设。经过几天的系统性测试,我发现一个成本大约 低 10 倍 的模型(当时的 GPT‑4.1‑mini)在该特定任务上给出了相同甚至更好的结果。并不是略微提升,而是显著更好——在我原本认为必须使用最新、最昂贵选项的任务上。

这次经历动摇了我对 AI 模型选择的认知,随后几个月我一直在深入探讨 为什么会出现这种情况 以及 它的普遍程度

定价页面几乎没有提供任何信息

每个 AI 提供商都会公布 每百万 token 的价格(输入 token、输出 token,或许还有缓存费率)。这看起来很简单,但在实际生产环境中,这个数字几乎没有意义,因为它忽略了两件会彻底改变计算结果的因素。

  1. 分词方式 – 不同模型对相同输入的分词方式不同。GPT‑5、Claude Sonnet 4.5、Gemini 3.0 Flash 等会对完全相同的提示产生不同的 token 数量。有时差距在 10‑15 %;有时甚至更大。因此,“每百万 token 的价格”从一开始就是在比较不同的东西,因为一个模型的百万 token 并不等同于另一个模型的同等工作量。

  2. 输出量 – 这是更大的因素。推理密集、链式思考的模型会生成大量 token。像 DeepSeek Reasonergpt‑5.2‑proClaude Opus 4.6 这样的模型会一步步思考问题,产生大量 token。你向两个模型提出同一个问题:一个给出 200 token 的答案,另一个给出 3000 token 的推理过程再加上 200 token 的答案。第二个模型每百万 token 的单价可能更低,但在实际任务上仍会让你 花费 5 倍

我多次看到这种情况:在定价页面上标称“便宜 10 倍”的模型,实际使用时因为处理工作负载的方式而更贵。相反,看起来价格高的模型因为 token 使用更高效,实际每个任务的成本可能更低。

为什么通用基准测试在这里没有帮助

选择模型时的直觉是查看排行榜:MMLUHumanEvalLMArenaLiveBench。这些对了解模型的通用能力很有帮助,但它们对你的具体使用场景一无所知。

  • 我并不是故意与众不同;这正是这些模型的真实工作方式。
  • 变量极其微妙:提示的措辞、输入的结构,甚至一个逗号的位置都可能改变哪个模型表现最佳。
  • 一个在 MMLU 上得分 92 % 的模型,在你的分类任务上可能只有 60 %,而一个在 MMLU 上得分 85 % 的模型却能达到 95 %。

而且这些基准测试都没有考虑成本。你可能在使用排行榜上的“最佳”模型,却花费了 10 倍 的费用,因为低三层的模型在你的特定工作负载上同样表现出色——甚至更好。

实际生产中真正重要的因素

  • 你的任务的准确性 – 不是通用基准。使用你的实际提示、数据和预期输出。
  • 真实的 token 成本 – 不是“每百万的价格”,而是模型在每个任务、每次调用、每次流水线运行中的实际费用。这包括输入 token(因分词器而异)、输出 token(受模型行为影响极大)以及任何计费的推理 token。
  • 延迟 – 首个 token 的生成时间以及整体完成时间。对于代理式工作流或面向用户的功能,这与成本同等重要。
  • 一致性 – 有些模型 70 % 的时间输出精彩,30 % 的时间却是垃圾;而有些模型则乏味但可靠。对于生产环境,乏味且可靠的模型总是胜出。

获取这些数据需要在多个模型上实际运行你的工作负载——不是一次性运行,也不是使用单一提示,而是要系统化、按计划进行,并有足够的变体以获得统计上有意义的结果。大多数团队不会这么做,因为这既繁琐又耗时。他们会根据看起来有效的结果和排行榜挑选“感觉合适”的模型,直接上线,之后不再回头。

于是你会发现自己在 API 调用上花费 $10 k/月,而 $2 k 就能获得相同的输出质量。

真正的教训

AI 模型市场发展迅速:每隔几周就有新模型出现,价格下降,能力跃迁,新的供应商加入。三个月前对你的使用场景最优的模型,今天可能已经不再最优。

唯一真正了解哪种模型最适合你的方法是在你的数据上、使用你的提示进行测试,并衡量对你特定情况重要的指标。其他一切都是猜测。

我在一次硬碰硬的经历中领悟到这一点——我发现自己在一个本以为必须使用旗舰模型的流水线中付出了 10 倍的费用。从那以后,我养成了每当有重大新版本发布时重新评估模型选择的习惯。每一次的成本节约和性能提升都让这项工作值得投入。

B

Marc Kean Paker 是 OpenMark 的创始人,这是一个 AI 模型基准测试平台,旨在帮助团队摆脱排行榜猜测,转向确定性、成本感知的模型选择。

0 浏览
Back to Blog

相关文章

阅读更多 »