谜团已解:Anthropic 揭示对 Claude 的 harnesses 和操作说明的更改可能导致性能下降

发布: (2026年4月24日 GMT+8 05:50)
5 分钟阅读

Source: VentureBeat

在过去的几周里,开发者和 AI 高级用户报告称 Anthropic 的旗舰模型正在失去优势。社区在 GitHub、X(Twitter)和 Reddit 上描述了一种被称为 “AI 缩减通胀”(AI shrinkflation)的现象——一种感知到的质量下降,表现为 Claude 在持续推理方面的能力减弱、更容易出现幻觉,并且在 token 使用上越来越浪费。批评者指出,模型从“研究优先”(research‑first)的方法转向了更为懒散的“编辑优先”(edit‑first)风格,这种风格在处理复杂工程任务时表现不佳。

“我们非常认真地对待关于质量下降的报告,”Anthropic 的博客文章写道。“我们从未有意降低模型性能,并且我们能够立即确认我们的 API 和推理层未受到影响。”

Anthropic 后来澄清,导致报告的质量问题的是三个产品层面的更改,而不是底层模型权重,这些更改现已被恢复或修复。

日益增多的退化证据

社区审计

Stella Laurenzo,AMD AI 组的高级总监,对 GitHub 上的 6,852 Claude Code 会话文件和超过 234 000 次工具调用进行了彻底审计。她的分析显示推理深度出现显著下降,导致推理循环,并倾向于选择“最简修复”而非正确方案。

第三方基准测试

BridgeMind 报告称,在他们的测试中,Claude Opus 4.6 的准确率从 83.3 % 下降到 68.3 %,导致其排名从第 2 位跌至第 10 位。尽管一些研究人员认为基准比较存在缺陷,原因是测试范围不一致,但 Claude “变笨了” 的说法仍广为流传。用户还注意到使用限制比预期更快耗尽,进一步加剧了对有意限流的怀疑。

原因

Anthropic 的事后报告确定了围绕模型的“外壳”所做的三项具体更改:

默认推理力度

  • 日期: 3 月 4 日
  • 更改: 将 Claude Code 的默认推理力度从 high(高)降至 medium(中),以解决 UI 延迟问题。
  • 影响: 在复杂任务上的智能表现出现明显下降。

缓存逻辑错误

  • 日期: 3 月 26 日
  • 更改: 一项用于从空闲会话中修剪旧“思考”的缓存优化出现了 bug。
  • 影响: 本应在一小时不活动后清除思考历史,却在每一次后续回合都被清除,导致短期记忆丢失,出现重复或健忘的行为。

系统提示冗长限制

  • 日期: 4 月 16 日
  • 更改: 添加了指令,要求工具调用之间的文本保持在 25 个词以内,最终响应保持在 100 个词以内(Opus 4.7)。
  • 影响: 导致编码质量评估下降约 3 %。

影响及未来保障措施

质量问题影响了 Claude Code CLIClaude Agent SDKClaude Cowork,但 Claude API 未受影响。Anthropic 承认这些更改使模型看起来不够智能,并概述了若干措施以防止未来出现回退。

运营变更

  • 内部自测(dogfooding): 更大比例的员工将使用 Claude Code 的公开构建版本,以和用户相同的方式体验产品。
  • 增强评估套件: 将对每一次系统提示的更改进行更广泛的模型级评估和“消融”实验,以隔离具体影响。
  • 更严格的控制: 新工具将使提示更改更易审计,模型特定的更改将严格限定在其预定目标上。
  • 订阅者补偿: 所有订阅者的使用上限已于 4 月 23 日重置,以弥补代币浪费和性能摩擦。

Anthropic 计划使用其新的 @ClaudeDevs 账号在 X 和 GitHub 上提供对未来产品决策背后更深入的推理,并与开发者社区保持更透明的对话。

0 浏览
Back to Blog

相关文章

阅读更多 »