我分析了300个LLM漂移检查：以下是我的发现

发布: 1个月前 (2026年3月23日 GMT+8 22:27)

4 分钟阅读

原文: Dev.to

Source: Dev.to

我分析了 300 条 LLM 漂移检查，覆盖了 6 个月的生产数据。以下是我的发现。

数据集

6 个月的生产环境中 LLM 输出监控。
多种模型：GPT‑4、GPT‑3.5、Claude 2、Claude 3。
多种使用场景：分类、抽取、生成。
300 条数据点。

什么是 LLM 漂移？

LLM 漂移指的是在未更改模型或提示词的情况下，模型的输出随时间发生变化。模型本身保持不变，但输出却不同。

这通常是因为模型提供商在后台更新模型权重、上下文分布发生变化，以及微调更新导致质量下降。

结果

漂移比你想象的更常见

23 % 的监控端点在 30 天内出现可测量的漂移
8 % 出现显著漂移（相对于基线的余弦距离 > 0.3）
漂移最常见于：分类任务、结构化抽取、多步推理

漂移随任务类型而异

任务类型	漂移率	平均严重程度
分类	31 %	低‑中
抽取	24 %	中
生成	18 %	低
代码生成	12 %	低
推理	28 %	中‑高

分类任务漂移最为明显。这是合理的——分类依赖于细微的模式识别。

漂移随模型而异

模型	漂移率	首次漂移的平均时间
GPT‑4	8 %	45 天
GPT‑3.5	22 %	12 天
Claude 2	18 %	28 天
Claude 3	6 %	60 天

Claude 3 和 GPT‑4 是最稳定的模型。较旧的模型漂移更快。

漂移最关键的场景

分类决策——例如垃圾邮件分类器误将正常邮件标记为垃圾。
数据抽取——例如发票抽取器漏掉字段，导致下游失败。
质量门——例如代码审查 AI 批准了有缺陷的代码，引入漏洞。

对于创意写作、通用问答或头脑风暴，漂移的影响相对较小。

如何检测漂移

每周使用相同提示词运行基线输出。
对基线输出和当前输出进行嵌入。
测量余弦相似度。
当相似度低于 0.8 时触发警报。

解决方案

检测到漂移时：

重新记录基线——接受新的输出为正确（最常见）。
调整提示词——添加明确的约束。
切换模型——迁移到更稳定的模型（成本最高）。

监控工具

Try DriftWatch — from GBP 9.90/mo

监控漂移，获取警报，在用户感知之前捕获性能下降。

相关文章

阅读更多 »

Claude Code 的 settings.json 加固速查表

风险是真实的。Claude Code 并没有恶意，但它可能会产生幻觉，并采取远超你所要求的善意行为——比如删除文件……

你没有错误地提示它

背景我在收听《The Pragmatic Engineer》关于“The Third Golden Age of Software Engineering”这一期时，听到 Grady Booch 的讲述。在节目中，他提到…

确定性控制平面：构建可靠的 AI 代理

！The BookMaster https://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads...

我构建了一个使用 AI “进化” 代码的开发工具 — REAP

问题如果你一直在使用像 Claude Code 这样的 AI 代理进行构建，你可能已经遇到这些问题：- Context loss —— 启动新会话会清除…