停止浪费 Tokens：如何将你的 LLM 成本削减 97%

发布: 3周前 (2026年4月8日 GMT+8 18:22)

4 分钟阅读

原文: Dev.to

Source: Dev.to

你 AI 流程中的隐藏税

如果你在使用 GPT 或 Claude 开发，可能已经这样做过：

调用 API
获得一个大的 JSON 响应
把整个响应发送给你的 LLM

看起来无害，对吧？其实并非如此。你在悄悄为根本不使用的数据买单。

示例负载

{
  "order": {
    "id": 123,
    "user": {
      "name": "Midhun",
      "email": "midhun@email.com"
    },
    "items": [ /* 100 objects */ ],
    "metadata": { /* tons of fields */ }
  }
}

LLM 实际需要的内容

{
  "name": "Midhun",
  "email": "midhun@email.com"
}

LLM 会对 你发送的所有内容 收费：

负载类型	令牌数	近似费用（每 1 k 次调用）
完整 JSON	~1500	~45 美元
仅有用数据	~60	~1 美元

你支付的费用是必要费用的约 25 倍，而且这会在 每一次请求 中发生。

常见变通办法（以及它们的缺点）

user = data.get("order", {}).get("user", {})
email = user.get("email")

10+ 个字段
深层嵌套结构
多个 API

结果：防御性空值检查、脆弱的解析逻辑、到处重复的模板代码。并不难，只是令人烦恼且易出错。

在发送给 LLM 之前清理负载

提取步骤

使用简单的查询格式定义你需要的字段：

{
  "data": { /* raw payload */ },
  "queries": {
    "email": ".order.user.email",
    "name": ".order.user.name"
  }
}

输出

{
  "email": "midhun@email.com",
  "name": "Midhun"
}

成本影响

负载类型	令牌数	近似费用（每 1 k 次调用）
原始 JSON	1500	~45 美元
清理后 JSON	60	~1 美元

结果： 令牌使用量降低约 97 %。乘以生产规模下的每日请求量，这就从优化转向真正的成本控制。

实现方案

使用 JSONPath 库 – 在代码中集成查询引擎。
构建预处理层 – 一个小服务，接受原始 JSON 和查询，然后返回最小化负载。

我构建了一个轻量级的 “JSON 查询引擎即服务”，工作方式如下：

输入： 原始 JSON + 查询
输出： 干净、最小化的负载

无需配置，无需繁重依赖。

使用场景

在发送数据给 LLM 前降低令牌使用量
清理来自 Stripe、Shopify、GitHub 等服务的负载
从大型日志或分析数据集中提取仅相关字段

大多数开发者专注于优化提示词和模型选择，但他们发送的数据往往是隐藏的浪费来源。在 AI 时代，效率 = 利润。在调优提示词之前，先优化输入。

亲自尝试

JSON PowerExtract（在 RapidAPI 上可用）——一个简单的 API，提取你需要的字段。免费层（每月 500 次请求）让你立即在自己的流水线中测试令牌节省效果。

停止浪费 Tokens：如何将你的 LLM 成本削减 97%

你 AI 流程中的隐藏税

示例负载

LLM 实际需要的内容

常见变通办法（以及它们的缺点）

在发送给 LLM 之前清理负载

提取步骤

成本影响

实现方案

使用场景

亲自尝试

相关文章

5 条 CLAUDE.md 规则，让我的 AI 停止提问并开始行动

有效提示的解剖：Google指南中的关键技巧

OpenAI推出新的100美元ChatGPT Pro计划，以更好地与Claude匹配

我停止写提示词，开始写 Python