谜团已解：Anthropic 揭示对 Claude 的 harnesses 和操作说明的更改可能导致性能下降

发布: 15小时前 (2026年4月24日 GMT+8 05:50)

5 分钟阅读

Source: VentureBeat

在过去的几周里，开发者和 AI 高级用户报告称 Anthropic 的旗舰模型正在失去优势。社区在 GitHub、X（Twitter）和 Reddit 上描述了一种被称为 “AI 缩减通胀”（AI shrinkflation）的现象——一种感知到的质量下降，表现为 Claude 在持续推理方面的能力减弱、更容易出现幻觉，并且在 token 使用上越来越浪费。批评者指出，模型从“研究优先”（research‑first）的方法转向了更为懒散的“编辑优先”（edit‑first）风格，这种风格在处理复杂工程任务时表现不佳。

“我们非常认真地对待关于质量下降的报告，”Anthropic 的博客文章写道。“我们从未有意降低模型性能，并且我们能够立即确认我们的 API 和推理层未受到影响。”

Anthropic 后来澄清，导致报告的质量问题的是三个产品层面的更改，而不是底层模型权重，这些更改现已被恢复或修复。

日益增多的退化证据

社区审计

Stella Laurenzo，AMD AI 组的高级总监，对 GitHub 上的 6,852 Claude Code 会话文件和超过 234 000 次工具调用进行了彻底审计。她的分析显示推理深度出现显著下降，导致推理循环，并倾向于选择“最简修复”而非正确方案。

第三方基准测试

BridgeMind 报告称，在他们的测试中，Claude Opus 4.6 的准确率从 83.3 % 下降到 68.3 %，导致其排名从第 2 位跌至第 10 位。尽管一些研究人员认为基准比较存在缺陷，原因是测试范围不一致，但 Claude “变笨了” 的说法仍广为流传。用户还注意到使用限制比预期更快耗尽，进一步加剧了对有意限流的怀疑。

原因

Anthropic 的事后报告确定了围绕模型的“外壳”所做的三项具体更改：

默认推理力度

日期： 3 月 4 日
更改： 将 Claude Code 的默认推理力度从 high（高）降至 medium（中），以解决 UI 延迟问题。
影响： 在复杂任务上的智能表现出现明显下降。

缓存逻辑错误

日期： 3 月 26 日
更改： 一项用于从空闲会话中修剪旧“思考”的缓存优化出现了 bug。
影响： 本应在一小时不活动后清除思考历史，却在每一次后续回合都被清除，导致短期记忆丢失，出现重复或健忘的行为。

系统提示冗长限制

日期： 4 月 16 日
更改： 添加了指令，要求工具调用之间的文本保持在 25 个词以内，最终响应保持在 100 个词以内（Opus 4.7）。
影响： 导致编码质量评估下降约 3 %。

影响及未来保障措施

质量问题影响了 Claude Code CLI、Claude Agent SDK 和 Claude Cowork，但 Claude API 未受影响。Anthropic 承认这些更改使模型看起来不够智能，并概述了若干措施以防止未来出现回退。

运营变更

内部自测（dogfooding）： 更大比例的员工将使用 Claude Code 的公开构建版本，以和用户相同的方式体验产品。
增强评估套件： 将对每一次系统提示的更改进行更广泛的模型级评估和“消融”实验，以隔离具体影响。
更严格的控制： 新工具将使提示更改更易审计，模型特定的更改将严格限定在其预定目标上。
订阅者补偿： 所有订阅者的使用上限已于 4 月 23 日重置，以弥补代币浪费和性能摩擦。

Anthropic 计划使用其新的 @ClaudeDevs 账号在 X 和 GitHub 上提供对未来产品决策背后更深入的推理，并与开发者社区保持更透明的对话。

谜团已解：Anthropic 揭示对 Claude 的 harnesses 和操作说明的更改可能导致性能下降

日益增多的退化证据

社区审计

第三方基准测试

原因

默认推理力度

缓存逻辑错误

系统提示冗长限制

影响及未来保障措施

运营变更

相关文章

为什么你的 LLM 可能存在 PII 问题（以及如何解决）

开发者在“切换模型”时忽视的三层（以及为何代理路由 Claude 代码会把它们全部弄坏）

Project Glasswing 证明 AI 能发现错误。谁来修复它们？

Allgnize，ACL 2026 主会议论文被录用……揭示 RAG 实际准确率从 77.9% 急跌至 5% 的原因