为什么你的 AI 编码代理成本呈指数增长（以及该如何应对）

发布: 3天前 (2026年2月17日 GMT+8 05:00)

4 分钟阅读

原文: Dev.to

Source: Dev.to

成本模式概览

如果你在使用 Claude Code、Cursor 或任何基于 LLM 的编码代理，需要了解一种成本模式：会话随着规模增长呈二次方成本上升。exe.dev 的详细分析对此进行了拆解。

缓存读取在对话长度增加时主导成本。
- 在 27,500 token 时，缓存读取占总成本的 ≈ 50 %。
- 在 100,000 token 时，缓存读取跃升至总成本的 ≈ 87 %。
实现一个普通的 “ho‑hum” 功能可能花费 $12.93。

total_cost = output_tokens * num_calls
           + cache_read_price * context_length * num_calls

第二项呈二次方增长，因为 context_length 与 num_calls 同时增加。

使用全新会话并提供清晰提示重新建立上下文，通常比继续一个膨胀的对话更便宜。新会话的费用往往只是继续膨胀会话的一小部分。

为每个任务定义明确的规格和验收标准。这样可以保持会话简短且聚焦，AI 能够在规格指示的完成点停止。

在独立的上下文窗口中完成的工作不会计入主对话的缓存。如果你的代理框架支持子代理（例如 Claude Code），可以为孤立任务生成新上下文。其开销通常低于不断增长的主上下文成本。

将一次文件读取拆成多个小读取 更昂贵，因为每次读取都会再次读取完整历史的缓存。尽可能批量进行工具调用。

SpecWeave 实现了这些思路：

上下文管理、成本管理和代理编排是相互关联的问题。遵循这些约束构建工作流的团队能够更快、更低成本地交付。早期采用者能够获得 真实优势——在保持相同速度的同时，每个功能的支出降低 最高 3 倍。