停止浪费 Tokens:如何将你的 LLM 成本削减 97%
Source: Dev.to
你 AI 流程中的隐藏税
如果你在使用 GPT 或 Claude 开发,可能已经这样做过:
- 调用 API
- 获得一个大的 JSON 响应
- 把整个响应发送给你的 LLM
看起来无害,对吧?其实并非如此。你在悄悄为根本不使用的数据买单。
示例负载
{
"order": {
"id": 123,
"user": {
"name": "Midhun",
"email": "midhun@email.com"
},
"items": [ /* 100 objects */ ],
"metadata": { /* tons of fields */ }
}
}LLM 实际需要的内容
{
"name": "Midhun",
"email": "midhun@email.com"
}LLM 会对 你发送的所有内容 收费:
| 负载类型 | 令牌数 | 近似费用(每 1 k 次调用) |
|---|---|---|
| 完整 JSON | ~1500 | ~45 美元 |
| 仅有用数据 | ~60 | ~1 美元 |
你支付的费用是必要费用的约 25 倍,而且这会在 每一次请求 中发生。
常见变通办法(以及它们的缺点)
user = data.get("order", {}).get("user", {})
email = user.get("email")- 10+ 个字段
- 深层嵌套结构
- 多个 API
结果:防御性空值检查、脆弱的解析逻辑、到处重复的模板代码。并不难,只是令人烦恼且易出错。
在发送给 LLM 之前清理负载
提取步骤
使用简单的查询格式定义你需要的字段:
{
"data": { /* raw payload */ },
"queries": {
"email": ".order.user.email",
"name": ".order.user.name"
}
}输出
{
"email": "midhun@email.com",
"name": "Midhun"
}成本影响
| 负载类型 | 令牌数 | 近似费用(每 1 k 次调用) |
|---|---|---|
| 原始 JSON | 1500 | ~45 美元 |
| 清理后 JSON | 60 | ~1 美元 |
结果: 令牌使用量降低约 97 %。乘以生产规模下的每日请求量,这就从优化转向真正的成本控制。
实现方案
- 使用 JSONPath 库 – 在代码中集成查询引擎。
- 构建预处理层 – 一个小服务,接受原始 JSON 和查询,然后返回最小化负载。
我构建了一个轻量级的 “JSON 查询引擎即服务”,工作方式如下:
- 输入: 原始 JSON + 查询
- 输出: 干净、最小化的负载
无需配置,无需繁重依赖。
使用场景
- 在发送数据给 LLM 前降低令牌使用量
- 清理来自 Stripe、Shopify、GitHub 等服务的负载
- 从大型日志或分析数据集中提取仅相关字段
大多数开发者专注于优化提示词和模型选择,但他们发送的数据往往是隐藏的浪费来源。在 AI 时代,效率 = 利润。在调优提示词之前,先优化输入。
亲自尝试
JSON PowerExtract(在 RapidAPI 上可用)——一个简单的 API,提取你需要的字段。免费层(每月 500 次请求)让你立即在自己的流水线中测试令牌节省效果。