Claude Opus 4.7 刚刚发布:87.6% SWE-bench,破坏性 API 更改,以及隐藏的成本上升
Source: Dev.to
概览
Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7。该模型在编码基准测试中表现出显著提升,拥有重大视觉升级,并带来了若干破坏性的 API 更改。虽然 Anthropic 声称“价格保持不变”,但新的分词器将 token 数量提升了 1.0–1.35 倍,实际上在大规模使用时会使成本提高 10‑35 %。
基准比较
| 指标 | Opus 4.6 | Opus 4.7 | Δ |
|---|---|---|---|
| SWE‑bench Verified | 80.8 % | 87.6 % | +6.8 pts |
| SWE‑bench Pro | 53.4 % | 64.3 % | +10.9 pts |
| CursorBench | 58 % | 70 % | +12 pts |
| GPQA Diamond | 91.3 % | 94.2 % | +2.9 pts |
| Visual Acuity | 54.5 % | 98.5 % | +44 pts |
Opus 4.7 解决的生产编码任务大约是 4.6 的三倍,并且提供近乎完美的视觉表现(98.5 % 的清晰度,支持 3.75 MP,分辨率提升三倍)。
竞争格局
| 模型 | SWE‑bench Verified | SWE‑bench Pro | GPQA Diamond | Prompt price (输入 / 输出 每 MTok) |
|---|---|---|---|---|
| Opus 4.7 | 87.6 % | 64.3 % | 94.2 % | $5 / $25 |
| GPT‑5.4 | ~83 % | 57.7 % | 94.4 % | $2.50 / $15 |
| Gemini 3.1 Pro | 80.6 % | 54.2 % | 94.3 % | $2 / $12 |
Opus 4.7 在编码方面领先,而三款模型的 GPQA 表现基本持平。Gemini 3.1 Pro 的成本约为 Opus 4.7 的 60 %。
Source: …
API 重大变更
移除采样参数
# THIS WILL FAIL ON OPUS 4.7
response = client.messages.create(
model="claude-opus-4-7",
temperature=0.7, # 400 error
top_p=0.9, # 400 error
)
Anthropic 已经取消了 temperature、top_p 以及其他采样调节参数。现在的指导方针是:“使用提示词来引导行为。” 其它前沿模型仍然支持这些参数。
自适应思考
# BEFORE (will crash)
thinking = {"type": "enabled", "budget_tokens": 32000}
# AFTER (works)
thinking = {"type": "adaptive"}
自适应 是唯一受支持的思考模式。若想恢复可见的进度指示器,可添加 display: "summarized":
thinking = {"type": "adaptive", "display": "summarized"}
分词器更改与实际价格上升
- Opus 4.7 使用了新的分词器,对相同文本的 token 数量会增加 1.0–1.35 倍。
- 在 Opus 4.6 上花费 1.00 美元的提示,在 Opus 4.7 上的费用变为 1.00–1.35 美元。
- 在生产规模下,这相当于 10‑35 % 的隐藏涨价,尽管官方仍声称“价格保持不变”。
成本控制策略
- 努力参数 – 优先使用
high而非xhigh或max。high在 Opus 4.7 上仍然比 Opus 4.6 的max表现更好。 - 提示缓存 – 缓存读取费用为 $0.50 / MTok,大约比标准输入便宜十倍。
- 基于任务的路由 – 对于复杂的编码/代理工作使用 Opus 4.7;将较简单的任务路由到更便宜的模型(例如 Gemini 3.1 Pro 或 GPT‑5.4 Mini)。
- 多模型网关 – 单一 API 端点可根据每个请求动态选择最佳模型,避免硬编码模型 ID。
值得了解的新功能
| 功能 | 描述 |
|---|---|
| Task Budgets (Beta) | 在完整的代理循环中提供建议性的令牌上限。模型会看到倒计时并自行调节。示例:output_config={"effort":"high","task_budget":{"type":"tokens","total":128000}} |
| xhigh Effort Level | 在 high 与 max 之间的新层级,用于更细致的质量‑成本权衡。 |
| High‑Res Vision | 支持最高 2,576 px(之前为 1,568 px),并提供 1:1 像素坐标——无需缩放计算。 |
| Better Memory | 代理在多轮对话中更有效地保留草稿本。 |
| Mythos (Unreleased) | Anthropic 承认未发布的 Mythos 模型(约 10 万亿参数)性能优于 Opus 4.7,但尚未普遍可用。Opus 4.7 是生产使用的“安全前沿”。 |
推荐
- 如果您使用 Opus 4.6:升级,但安排专门的测试日来处理破坏性更改。
- 如果您使用 Sonnet 4.6($3 / $15):除非需要编码质量的提升,否则保持不变;Sonnet 能以约 40% 更低的成本完成约 90% 的任务。
- 成本优化者:针对难题有选择地部署 Opus 4.7;其余工作通过统一网关路由到更便宜的替代方案。
- 新项目:避免锁定单一供应商。构建抽象层,以便在前沿技术每 2–3 个月演进时能够切换模型。
征求社区反馈
您对 Opus 4.7 有什么使用经验?请在评论中分享您的真实基准测试结果以及与官方数据的任何偏差。