Claude Opus 4.7 刚刚发布:87.6% SWE-bench,破坏性 API 更改,以及隐藏的成本上升

发布: (2026年4月17日 GMT+8 13:27)
6 分钟阅读
原文: Dev.to

Source: Dev.to

概览

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7。该模型在编码基准测试中表现出显著提升,拥有重大视觉升级,并带来了若干破坏性的 API 更改。虽然 Anthropic 声称“价格保持不变”,但新的分词器将 token 数量提升了 1.0–1.35 倍,实际上在大规模使用时会使成本提高 10‑35 %。

基准比较

指标Opus 4.6Opus 4.7Δ
SWE‑bench Verified80.8 %87.6 %+6.8 pts
SWE‑bench Pro53.4 %64.3 %+10.9 pts
CursorBench58 %70 %+12 pts
GPQA Diamond91.3 %94.2 %+2.9 pts
Visual Acuity54.5 %98.5 %+44 pts

Opus 4.7 解决的生产编码任务大约是 4.6 的三倍,并且提供近乎完美的视觉表现(98.5 % 的清晰度,支持 3.75 MP,分辨率提升三倍)。

竞争格局

模型SWE‑bench VerifiedSWE‑bench ProGPQA DiamondPrompt price (输入 / 输出 每 MTok)
Opus 4.787.6 %64.3 %94.2 %$5 / $25
GPT‑5.4~83 %57.7 %94.4 %$2.50 / $15
Gemini 3.1 Pro80.6 %54.2 %94.3 %$2 / $12

Opus 4.7 在编码方面领先,而三款模型的 GPQA 表现基本持平。Gemini 3.1 Pro 的成本约为 Opus 4.7 的 60 %。

Source:

API 重大变更

移除采样参数

# THIS WILL FAIL ON OPUS 4.7
response = client.messages.create(
    model="claude-opus-4-7",
    temperature=0.7,   # 400 error
    top_p=0.9,         # 400 error
)

Anthropic 已经取消了 temperaturetop_p 以及其他采样调节参数。现在的指导方针是:“使用提示词来引导行为。” 其它前沿模型仍然支持这些参数。

自适应思考

# BEFORE (will crash)
thinking = {"type": "enabled", "budget_tokens": 32000}

# AFTER (works)
thinking = {"type": "adaptive"}

自适应 是唯一受支持的思考模式。若想恢复可见的进度指示器,可添加 display: "summarized"

thinking = {"type": "adaptive", "display": "summarized"}

分词器更改与实际价格上升

  • Opus 4.7 使用了新的分词器,对相同文本的 token 数量会增加 1.0–1.35 倍。
  • 在 Opus 4.6 上花费 1.00 美元的提示,在 Opus 4.7 上的费用变为 1.00–1.35 美元。
  • 在生产规模下,这相当于 10‑35 % 的隐藏涨价,尽管官方仍声称“价格保持不变”。

成本控制策略

  1. 努力参数 – 优先使用 high 而非 xhighmaxhigh 在 Opus 4.7 上仍然比 Opus 4.6 的 max 表现更好。
  2. 提示缓存 – 缓存读取费用为 $0.50 / MTok,大约比标准输入便宜十倍。
  3. 基于任务的路由 – 对于复杂的编码/代理工作使用 Opus 4.7;将较简单的任务路由到更便宜的模型(例如 Gemini 3.1 Pro 或 GPT‑5.4 Mini)。
  4. 多模型网关 – 单一 API 端点可根据每个请求动态选择最佳模型,避免硬编码模型 ID。

值得了解的新功能

功能描述
Task Budgets (Beta)在完整的代理循环中提供建议性的令牌上限。模型会看到倒计时并自行调节。示例:output_config={"effort":"high","task_budget":{"type":"tokens","total":128000}}
xhigh Effort Levelhighmax 之间的新层级,用于更细致的质量‑成本权衡。
High‑Res Vision支持最高 2,576 px(之前为 1,568 px),并提供 1:1 像素坐标——无需缩放计算。
Better Memory代理在多轮对话中更有效地保留草稿本。
Mythos (Unreleased)Anthropic 承认未发布的 Mythos 模型(约 10 万亿参数)性能优于 Opus 4.7,但尚未普遍可用。Opus 4.7 是生产使用的“安全前沿”。

推荐

  • 如果您使用 Opus 4.6:升级,但安排专门的测试日来处理破坏性更改。
  • 如果您使用 Sonnet 4.6($3 / $15):除非需要编码质量的提升,否则保持不变;Sonnet 能以约 40% 更低的成本完成约 90% 的任务。
  • 成本优化者:针对难题有选择地部署 Opus 4.7;其余工作通过统一网关路由到更便宜的替代方案。
  • 新项目:避免锁定单一供应商。构建抽象层,以便在前沿技术每 2–3 个月演进时能够切换模型。

征求社区反馈

您对 Opus 4.7 有什么使用经验?请在评论中分享您的真实基准测试结果以及与官方数据的任何偏差。

0 浏览
Back to Blog

相关文章

阅读更多 »

地球日的活力

我构建的 History 按日历天在浏览器中保存;每个部分旁边的照片是真实的捆绑图像。可选的 Gemini API 路由可以添加温暖的教练……