谜团已解:Anthropic 揭示对 Claude 的 harnesses 和操作说明的更改可能导致性能下降
Source: VentureBeat
在过去的几周里,开发者和 AI 高级用户报告称 Anthropic 的旗舰模型正在失去优势。社区在 GitHub、X(Twitter)和 Reddit 上描述了一种被称为 “AI 缩减通胀”(AI shrinkflation)的现象——一种感知到的质量下降,表现为 Claude 在持续推理方面的能力减弱、更容易出现幻觉,并且在 token 使用上越来越浪费。批评者指出,模型从“研究优先”(research‑first)的方法转向了更为懒散的“编辑优先”(edit‑first)风格,这种风格在处理复杂工程任务时表现不佳。
“我们非常认真地对待关于质量下降的报告,”Anthropic 的博客文章写道。“我们从未有意降低模型性能,并且我们能够立即确认我们的 API 和推理层未受到影响。”
Anthropic 后来澄清,导致报告的质量问题的是三个产品层面的更改,而不是底层模型权重,这些更改现已被恢复或修复。
日益增多的退化证据
社区审计
Stella Laurenzo,AMD AI 组的高级总监,对 GitHub 上的 6,852 Claude Code 会话文件和超过 234 000 次工具调用进行了彻底审计。她的分析显示推理深度出现显著下降,导致推理循环,并倾向于选择“最简修复”而非正确方案。
第三方基准测试
BridgeMind 报告称,在他们的测试中,Claude Opus 4.6 的准确率从 83.3 % 下降到 68.3 %,导致其排名从第 2 位跌至第 10 位。尽管一些研究人员认为基准比较存在缺陷,原因是测试范围不一致,但 Claude “变笨了” 的说法仍广为流传。用户还注意到使用限制比预期更快耗尽,进一步加剧了对有意限流的怀疑。
原因
Anthropic 的事后报告确定了围绕模型的“外壳”所做的三项具体更改:
默认推理力度
- 日期: 3 月 4 日
- 更改: 将 Claude Code 的默认推理力度从 high(高)降至 medium(中),以解决 UI 延迟问题。
- 影响: 在复杂任务上的智能表现出现明显下降。
缓存逻辑错误
- 日期: 3 月 26 日
- 更改: 一项用于从空闲会话中修剪旧“思考”的缓存优化出现了 bug。
- 影响: 本应在一小时不活动后清除思考历史,却在每一次后续回合都被清除,导致短期记忆丢失,出现重复或健忘的行为。
系统提示冗长限制
- 日期: 4 月 16 日
- 更改: 添加了指令,要求工具调用之间的文本保持在 25 个词以内,最终响应保持在 100 个词以内(Opus 4.7)。
- 影响: 导致编码质量评估下降约 3 %。
影响及未来保障措施
质量问题影响了 Claude Code CLI、Claude Agent SDK 和 Claude Cowork,但 Claude API 未受影响。Anthropic 承认这些更改使模型看起来不够智能,并概述了若干措施以防止未来出现回退。
运营变更
- 内部自测(dogfooding): 更大比例的员工将使用 Claude Code 的公开构建版本,以和用户相同的方式体验产品。
- 增强评估套件: 将对每一次系统提示的更改进行更广泛的模型级评估和“消融”实验,以隔离具体影响。
- 更严格的控制: 新工具将使提示更改更易审计,模型特定的更改将严格限定在其预定目标上。
- 订阅者补偿: 所有订阅者的使用上限已于 4 月 23 日重置,以弥补代币浪费和性能摩擦。
Anthropic 计划使用其新的 @ClaudeDevs 账号在 X 和 GitHub 上提供对未来产品决策背后更深入的推理,并与开发者社区保持更透明的对话。