Claude Opus 4.7 刚刚发布：87.6% SWE-bench，破坏性 API 更改，以及隐藏的成本上升

发布: 3天前 (2026年4月17日 GMT+8 13:27)

6 分钟阅读

Source: Dev.to

概览

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7。该模型在编码基准测试中表现出显著提升，拥有重大视觉升级，并带来了若干破坏性的 API 更改。虽然 Anthropic 声称“价格保持不变”，但新的分词器将 token 数量提升了 1.0–1.35 倍，实际上在大规模使用时会使成本提高 10‑35 %。

基准比较

指标	Opus 4.6	Opus 4.7	Δ
SWE‑bench Verified	80.8 %	87.6 %	+6.8 pts
SWE‑bench Pro	53.4 %	64.3 %	+10.9 pts
CursorBench	58 %	70 %	+12 pts
GPQA Diamond	91.3 %	94.2 %	+2.9 pts
Visual Acuity	54.5 %	98.5 %	+44 pts

Opus 4.7 解决的生产编码任务大约是 4.6 的三倍，并且提供近乎完美的视觉表现（98.5 % 的清晰度，支持 3.75 MP，分辨率提升三倍）。

竞争格局

模型	SWE‑bench Verified	SWE‑bench Pro	GPQA Diamond	Prompt price (输入 / 输出 每 MTok)
Opus 4.7	87.6 %	64.3 %	94.2 %	$5 / $25
GPT‑5.4	~83 %	57.7 %	94.4 %	$2.50 / $15
Gemini 3.1 Pro	80.6 %	54.2 %	94.3 %	$2 / $12

Opus 4.7 在编码方面领先，而三款模型的 GPQA 表现基本持平。Gemini 3.1 Pro 的成本约为 Opus 4.7 的 60 %。

Source: …

API 重大变更

移除采样参数

# THIS WILL FAIL ON OPUS 4.7
response = client.messages.create(
    model="claude-opus-4-7",
    temperature=0.7,   # 400 error
    top_p=0.9,         # 400 error
)

Anthropic 已经取消了 temperature、top_p 以及其他采样调节参数。现在的指导方针是：“使用提示词来引导行为。” 其它前沿模型仍然支持这些参数。

自适应思考

# BEFORE (will crash)
thinking = {"type": "enabled", "budget_tokens": 32000}

# AFTER (works)
thinking = {"type": "adaptive"}

自适应 是唯一受支持的思考模式。若想恢复可见的进度指示器，可添加 display: "summarized"：

thinking = {"type": "adaptive", "display": "summarized"}

分词器更改与实际价格上升

Opus 4.7 使用了新的分词器，对相同文本的 token 数量会增加 1.0–1.35 倍。
在 Opus 4.6 上花费 1.00 美元的提示，在 Opus 4.7 上的费用变为 1.00–1.35 美元。
在生产规模下，这相当于 10‑35 % 的隐藏涨价，尽管官方仍声称“价格保持不变”。

成本控制策略

努力参数 – 优先使用 high 而非 xhigh 或 max。high 在 Opus 4.7 上仍然比 Opus 4.6 的 max 表现更好。
提示缓存 – 缓存读取费用为 $0.50 / MTok，大约比标准输入便宜十倍。
基于任务的路由 – 对于复杂的编码/代理工作使用 Opus 4.7；将较简单的任务路由到更便宜的模型（例如 Gemini 3.1 Pro 或 GPT‑5.4 Mini）。
多模型网关 – 单一 API 端点可根据每个请求动态选择最佳模型，避免硬编码模型 ID。

值得了解的新功能

功能	描述
Task Budgets (Beta)	在完整的代理循环中提供建议性的令牌上限。模型会看到倒计时并自行调节。示例：`output_config={"effort":"high","task_budget":{"type":"tokens","total":128000}}`
xhigh Effort Level	在 `high` 与 `max` 之间的新层级，用于更细致的质量‑成本权衡。
High‑Res Vision	支持最高 2,576 px（之前为 1,568 px），并提供 1:1 像素坐标——无需缩放计算。
Better Memory	代理在多轮对话中更有效地保留草稿本。
Mythos (Unreleased)	Anthropic 承认未发布的 Mythos 模型（约 10 万亿参数）性能优于 Opus 4.7，但尚未普遍可用。Opus 4.7 是生产使用的“安全前沿”。

征求社区反馈

您对 Opus 4.7 有什么使用经验？请在评论中分享您的真实基准测试结果以及与官方数据的任何偏差。

Claude Opus 4.7 刚刚发布：87.6% SWE-bench，破坏性 API 更改，以及隐藏的成本上升

概览

基准比较

竞争格局

API 重大变更

移除采样参数

自适应思考

分词器更改与实际价格上升

成本控制策略

值得了解的新功能

推荐

征求社区反馈

相关文章

AI 本应减轻开发者倦怠，数据却显示相反。

地球日的活力

AI 能快速编写代码。但谁来检查它是否真的正确？

EcoLens 🌍 — 扫描任何物体，了解其碳足迹（为海地及资源受限环境打造）