我分析了300个LLM漂移检查:以下是我的发现
发布: (2026年3月23日 GMT+8 22:27)
4 分钟阅读
原文: Dev.to
Source: Dev.to
我分析了 300 条 LLM 漂移检查,覆盖了 6 个月的生产数据。以下是我的发现。
数据集
- 6 个月的生产环境中 LLM 输出监控。
- 多种模型:GPT‑4、GPT‑3.5、Claude 2、Claude 3。
- 多种使用场景:分类、抽取、生成。
- 300 条数据点。
什么是 LLM 漂移?
LLM 漂移指的是在未更改模型或提示词的情况下,模型的输出随时间发生变化。模型本身保持不变,但输出却不同。
这通常是因为模型提供商在后台更新模型权重、上下文分布发生变化,以及微调更新导致质量下降。
结果
漂移比你想象的更常见
- 23 % 的监控端点在 30 天内出现可测量的漂移
- 8 % 出现显著漂移(相对于基线的余弦距离 > 0.3)
- 漂移最常见于:分类任务、结构化抽取、多步推理
漂移随任务类型而异
| 任务类型 | 漂移率 | 平均严重程度 |
|---|---|---|
| 分类 | 31 % | 低‑中 |
| 抽取 | 24 % | 中 |
| 生成 | 18 % | 低 |
| 代码生成 | 12 % | 低 |
| 推理 | 28 % | 中‑高 |
分类任务漂移最为明显。这是合理的——分类依赖于细微的模式识别。
漂移随模型而异
| 模型 | 漂移率 | 首次漂移的平均时间 |
|---|---|---|
| GPT‑4 | 8 % | 45 天 |
| GPT‑3.5 | 22 % | 12 天 |
| Claude 2 | 18 % | 28 天 |
| Claude 3 | 6 % | 60 天 |
Claude 3 和 GPT‑4 是最稳定的模型。较旧的模型漂移更快。
漂移最关键的场景
- 分类决策——例如垃圾邮件分类器误将正常邮件标记为垃圾。
- 数据抽取——例如发票抽取器漏掉字段,导致下游失败。
- 质量门——例如代码审查 AI 批准了有缺陷的代码,引入漏洞。
对于创意写作、通用问答或头脑风暴,漂移的影响相对较小。
如何检测漂移
- 每周使用相同提示词运行基线输出。
- 对基线输出和当前输出进行嵌入。
- 测量余弦相似度。
- 当相似度低于 0.8 时触发警报。
解决方案
检测到漂移时:
- 重新记录基线——接受新的输出为正确(最常见)。
- 调整提示词——添加明确的约束。
- 切换模型——迁移到更稳定的模型(成本最高)。
监控工具
Try DriftWatch — from GBP 9.90/mo
监控漂移,获取警报,在用户感知之前捕获性能下降。