究竟是什么让你的 LLM 成本飙升?
发布: (2026年2月12日 GMT+8 05:28)
3 分钟阅读
原文: Dev.to
Source: Dev.to
LLM 成本的真实驱动因素
1. 调用模型的频率
这听起来显而易见,但频率会迅速累积。循环内部的额外调用、一次不必要的验证,或是代理进行多次内部调用,都可能在没人注意的情况下把月成本翻倍。一次简洁的架构决策就可能决定每次用户操作是 1 次调用还是 5 次调用。
2. 发送的上下文量
Token 是无声的预算杀手。
- 每次都发送完整的对话历史。
- 当只需要片段时却传递整篇文档。
- 追加的系统提示不断增长。
上下文大小直接影响成本,在生产系统中,除非刻意控制,它往往会随时间增长。
3. 是否使用缓存、路由或更智能的检索
并非每个请求都需要使用最昂贵的模型,也并非每个请求都需要调用模型。
- 你能缓存重复的答案吗?
- 你能把简单查询路由到更小的模型吗?
- 你能先检索,只发送相关的片段吗?
LLM 系统的成本优化很少是谈判模型定价,而是设计更聪明的流程。
为什么演示时成本低(而生产环境却不)
在演示中
- 使用短提示进行测试。
- 手动调用几次。
- 没有真实流量。
- 没有重试逻辑。
- 没有边缘案例。
在生产中
- 用户行为不可预测。
- 提示会变长。
- 代理调用其他代理。
- 重试和回退会成倍增加使用量。
- 流量会扩大。
模型并没有突然变贵——是你的系统变得真实了。
我们最近在一个关于 LLM 成本优化和生产架构的系列短视频中概括了这个想法。如果你感兴趣,这里是参考链接。
你在 LLM 部署中是如何考虑成本控制的?是否在为每个功能测量 token 使用量?欢迎分享你们的做法。