AI模型定价一团糟——以下是我们的追踪方式

发布: (2026年4月10日 GMT+8 22:47)
5 分钟阅读
原文: Dev.to

Source: Dev.to

目前已有超过 100 种 LLM 模型可通过商业 API 使用。它们的定价不断变化——有时每周多次。新模型上线,旧模型被淘汰,提供商会悄悄调整费率。

如果你在使用 LLM 开发,可能已经遇到这种情况:你选定一个模型,硬编码进去,发布后,三个月后才发现你为相同质量的输出支付了新模型的 10 倍 费用。

我们构建了 WhichModel 来解决这个问题。

问题的规模

  • 10+ 家提供商,各自拥有不同的定价页面、格式和更新节奏
  • 100+ 种模型,拥有不同的输入/输出/缓存 token 计费方式
  • 能力矩阵 随每次模型更新而变化(视觉、工具调用、JSON 模式、上下文窗口)
  • 质量层级 与价格并不完全对应——每 token $0.60 的模型在特定任务上可以超越每 token $15 的模型

大多数团队的做法是 不处理。他们挑选一两个模型,偶尔(如果有的话)每季度重新评估一次。

我们的追踪方式

WhichModel 每 4 小时 抓取、标准化并交叉验证所有主要 LLM 提供商的定价数据。

多源验证

我们不依赖单一来源。定价数据会在提供商 API、文档页面以及第三方聚合器之间进行交叉检查。若来源不一致,我们会标记出来。

结构化能力追踪

对每个模型我们记录:

  • 输入、输出和缓存 token 的价格
  • 上下文窗口大小
  • 支持的功能(工具调用、JSON 输出、流式传输、视觉)
  • 提供商及可用性

MCP 原生访问

数据以 MCP 服务器的形式提供——意味着任何 AI 代理都可以原生查询。无需学习 REST API,也无需安装 SDK:

  • 一行配置。无需 API Key。实时定价数据。

你的代理随后可以询问:

  • “支持工具调用且上下文至少 128K 的最便宜模型是什么?”
  • “比较 Claude Sonnet 4 与 GPT‑4.1 在每日 10K 次调用的代码生成表现”
  • “推荐一个每次调用成本低于 $0.002 的数据抽取模型”

我们的收获

  1. 价格与大多数任务的质量并不相关。
    每 token $0.60 的模型可以处理约 80 % 的生产任务,表现不逊于每 token $15 的模型。剩余 20 % 的任务差距才是关键。

  2. 定价变化比你想象的更频繁。
    整个生态系统每周会出现多次重要的定价更新。上个月的定价今天可能已经不适用。

  3. “直接使用最好的模型”在规模化时成本高昂。
    在每日 10 K 次调用的情况下,使用每 token $15 的模型与每 token $0.60 的模型的差价为 $216/天——每月超过 $6 000。

  4. 代理需要实时数据,而不是电子表格。
    自主代理必须在无人干预的情况下做出决策——包括选择使用哪个模型。

试用

WhichModel 开源且免费使用。

  • MCP Endpoint:
  • GitHub:
  • Website:

为代理而建。每 4 小时更新一次。MIT 许可证。

0 浏览
Back to Blog

相关文章

阅读更多 »