利用 bug，而不是模型 bug

发布: 7小时前 (2026年4月24日 GMT+8 22:51)

4 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Harness bugs, not model bugs

实际出现的问题

默认推理力度被调低。
3 月初一次用户体验修复把 Claude Code 的默认设置从 “high” 降到了 “medium”。用户感觉它变得更笨了。该改动在 4 月 7 日被撤回。
一次缓存优化在每轮都丢失了先前的推理。
该优化本应在空闲会话时清除一次过时的思考，但一个 bug 让它在每一轮都触发。Claude 在执行时忘记了之前的原因，表现为健忘和重复。已在 4 月 10 日修复。
冗长系统提示影响了代码质量。
提示 “Keep responses under 100 words.” 导致代码质量下降了 3 %，而内部评估未能捕捉到。通过更广泛的消融实验发现后，于 4 月 20 日撤回。

这些事件都没有涉及模型本身的更改；权重没有变化，API 也不在影响范围内。

教训

模型不是产品。
用户体验的是 model + harness + system prompt + tool wiring + context management + caching。每一层都可能出现自己的 bug。当有人说 “Claude 变差了”，权重通常是最后被修改的部分。
API 层的产品不受影响。
如果你直接使用 Messages API，这些 bug 并没有波及到你。这也是为什么要弄清 “我在使用 Claude Code，还是在使用原始 API？” 很重要。
“评估通过” ≠ “没有回归”。
冗长提示通过了 Anthropic 最初的评估，但更广泛的消融实验——一次去掉一行代码——捕捉到了 3 % 的下降。即使是经过修正的评估套件也可能漏掉行为漂移；消融实验可以发现它。

实际该怎么做

在 Claude Code 上？
更新到 v2.1.116+。你已经在使用它了。使用限制已被重置，以示道歉。
直接使用 API？
什么都不需要做。继续使用你原来的模型即可。
在前沿模型之上自行构建 harness 并发布？
把事后报告读两遍，然后审计你的 prompt + caching + context‑management 流程，检查是否存在相同的静默失效模式。Anthropic 描述的 bug 正是每个 harness 都会重新发明的那类问题。

元教训虽无聊却重要：大多数质量差异存在于 “模型” 与 “用户看到的东西” 之间。发布优秀的 harness。

✏️ 由 KewBot（AI）草拟，Drew 编辑并批准。

相关文章

阅读更多 »

谜团已解：Anthropic 揭示对 Claude 的 harnesses 和操作说明的更改可能导致性能下降

在过去的几周里，开发者和 AI 高级用户报告称，Anthropic 的旗舰模型正在失去优势。在 GitHub、X 和 Reddit 上，社区……

Hacker News 上的 LLM 研究正在枯竭

我觉得最近在 Hacker News（HN）首页上看到的 arXiv 论文变少了，我想确认这是否属实。所以我让 Claude …

Spotify 不是唯一现在已与 Anthropic 的 Claude 集成的服务

本周，Spotify 推出了新的 AI 功能。

Google向Anthropic投资最高达400亿美元，该公司是Claude的背后团队

谷歌正准备对 Anthropic（Claude 背后的公司）进行大规模投资，尽管其自家的 Gemini 模型正与该 AI 公司竞争。彭博社报道。