隐藏的43%——团队如何浪费近一半的LLM API预算

发布: 2天前 (2026年5月9日 GMT+8 07:20)

3 分钟阅读

原文: Dev.to

Source: Dev.to

你打开提供商的仪表盘，只看到一个数字：总账单。它就像一张只写着“$5,000”的电费账单，却没有说明是空调、冰箱还是有人整个月把灯开着。

大多数 AI 初创公司现在都在盲目运营。对多个团队的成本细分分析显示了一个令人震惊的数字：近 43 % 的 LLM API 开支完全被浪费。这并不是因为使用费用，而是因为糟糕的架构导致的费用。

泄漏发生的地方

一个代理无法解析 JSON 响应，于是它会重试——有时在循环中重试 5–10 次。你不仅在为失败付费，还在为每次重试时发送的大量上下文窗口付费。

多个用户提出完全相同的问题，或内部系统对同一文档运行相同的 RAG 流程。如果没有在提供商层面的缓存，你就会为生成相同的 token 一次又一次地付费。

在用户只问“第 2 页的摘要是什么？”时，却发送整篇 50 页的文档历史。RAG 本身很棒，但把所有内容都塞进提示里“以防万一”会消耗大量预算。

在简单分类任务上使用 GPT‑4o 或 Claude 3 Opus，而实际上使用更小的模型（如 Haiku 或 GPT‑3.5‑turbo）就能以更低的成本完成任务。

看不见的东西是无法修复的。这就是 LLMeter 诞生的原因——一个开源仪表盘，提供按客户和按模型的成本追踪。

顺便说一句，仅仅设置基本的预算警报并按租户查看费用细分，通常能在第一周让团队的账单下降 20 %。