模型越智能,节省越多。

发布: (2026年5月5日 GMT+8 07:49)
8 分钟阅读
原文: Dev.to

I’m happy to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding any code blocks or URLs you want to keep unchanged) here? Once I have the text, I’ll provide a Simplified‑Chinese translation while preserving the original formatting and markdown.

神话:更聪明的模型会让插件变得多余

WOZCODE 推出以来,许多 Claude Code 高级用户低声议论,随着底层模型的提升,插件的优势将会消失。
理由很简单:

如果 Claude 能够更清晰地思考、更高效地规划,并且自行犯错更少,它为何还需要在其之上加一层优化的工具?

我们也曾这么想——直到每一次 Opus 发布迫使我们检验这一假设。

我们的测量

基准设置

细节描述
代码库同一 TypeScript 项目,已使用数月
提示15 项日常开发者任务(例如,修复 500 错误、拆分大型服务类、添加 JWT 类型、配置 Jest 等)
变量模型版本(Opus 4.6Opus 4.7)以及是否安装 WOZCODE
常量其他所有设置均保持 Anthropic 默认(包括 Claude Code 的默认配置)

成本结果

模型设置每次运行成本与原版相比的百分比变化
Opus 4.6原版 Claude Code$11.62
Opus 4.6+ WOZCODE$6.88‑41 %
Opus 4.7原版 Claude Code$20.92+80 % vs. 4.6
Opus 4.7+ WOZCODE$7.73+12 % vs. 4.6, ‑63 % vs. vanilla 4.7

每次运行中原版与 WOZCODE 之间的美元差距从 $4.74 增长到 $13.19 —— 没有缩小

速度结果

模型设置实际时间回合数
Opus 4.6原版 Claude Code28 m 31 s161
Opus 4.7原版 Claude Code35 m 02 s161
Opus 4.7+ WOZCODE26 m 21 s52

在 Opus 4.7 上的 WOZCODE 完成速度 更快,比旧模型的原版快,并且使用的回合数 不到三分之一

为什么更好的模型放大更好的工具

传统观念恰恰相反。更聪明的模型 并不会 让工具失去意义;相反,它会让 优秀的工具更有价值,因为模型实际上可以 使用 它们。

WOZCODE 的改变

WOZCODE 功能与 Claude Code 的区别
Combined search + read将 “grep” + 多文件读取 合并为 单次操作
Batched editor一次调用 中对整个代码库进行更改,而不是逐文件处理
AST‑aware truncation探索时仅返回函数签名,只有在需要时才获取完整函数体 only when needed
Live SQL tool直接对已连接的数据库执行查询,取代 Bash 子进程 + 多轮解析流程

这些优化只有在模型能够 提前规划 时才会发挥作用:

  • 批量编辑 只有在模型能够在发出任何更改之前推理出 条修改时才会节省回合数。
  • 合并搜索 + 读取 只有在模型已经知道 要找什么 时才有帮助。

Opus 4.7 正是提供了这种更为审慎的规划能力,WOZCODE 的工具也因此被设计成 奖励 这种能力。

相反,原始的 Claude Code 仍然迫使模型采用逐文件、逐操作的接口。于是更聪明的模型会产生 更密集、更昂贵 的单次回合,而不是更少的总调用次数。再加上 Anthropic 新的 xhigh‑effort 默认设置以及令牌化器更新导致的 token 数量膨胀,这就解释了 vanilla Claude Code 上 80 % 成本跳升 的原因。

Anthropic的预测与我们的测量

Anthropic对 Opus 4.7 的发布说明 预测支出将增加 20‑30 %(由于分词器更改和默认努力程度提升)。

我们的 真实世界 测量在 vanilla Claude Code(默认设置)上显示增加了 80 %
额外成本在需要 跨文件推理 的提示中尤为明显,因为模型在“更深入思考”时会消耗更多输出 token。

方向很明确:实际增长远超典型开发工作负载的 headline 估计。

轨迹,而不仅仅是数字

更有趣的问题是 这对未来版本(Opus 4.8、5.0 等)意味着什么。

  • 从 4.6 → 4.7,节省差距扩大了 22 个百分点
  • 如果底层机制成立——更好的规划者能从面向规划的工具中提取更多价值——每个新模型都会 进一步扩大 这一差距。

WOZCODE 的工具在模型版本之间 保持不变;其优势 会叠加,因为模型的规划能力在提升,而原始 Claude Code 的界面保持不变。

对团队的实际影响

  • 对于使用 Claude 固定费率订阅计划的用户,升级到 4.7 时 每 token 的美元价格 保持不变。
  • 但是,使用原始 Claude Code(161 回合)时 使用上限填满得更快,而使用 WOZCODE(52 回合)则更慢。
  • 因此,安装 WOZCODE 后,Max 计划的 有效容量 大约是 原来的三倍

结论

更智能的模型 并不会削弱 优化工具的价值;它 会放大 这一价值。WOZCODE 的以规划为中心的设计与 Opus 4.7 更为审慎的推理完美匹配,提供 显著的成本和时间节约,且随着未来模型成为更好的规划者,这种节约只会进一步提升。

API 计费成本比较 / 直通定价

  • 从 Opus 4.6 升级到 4.7
    • 已安装 WOZCODE 时: ≈ 每次基准运行 $0.85。
    • 未安装 WOZCODE 时: > 每次运行 $9.00。

同时在同一周内安装插件 并且 升级模型,可在所有关键指标上领先——成本、速度和消耗的回合数

安装 WOZCODE

两个终端命令。无需注册,代码不离开你的机器,免费计划包括每月 $100 / month 的 Claude Code 节省,无需账户。

claude plugin marketplace add WithWoz/wozcode-plugin
claude plugin install woz@wozcode-marketplace

模型亮点:Opus 4.7

  • 截至目前,Anthropic发布的最佳模型。
  • 思考更深入,规划更周全,提供显著更强的结果。
  • 其工具使用能力旨在跟上高强度工作负载的需求。

基准方法论

  • 代码库: 相同的 TypeScript 项目。
  • 预设: leave-defaults(基准运行器 覆盖 Claude Code 的努力或思考设置;每个模型都使用其默认配置运行)。
  • 执行日期: 两次运行均在 2026年4月28日 完成。

按提示的细分和原始运行日志可根据请求提供。

0 浏览
Back to Blog

相关文章

阅读更多 »