我分析了300个LLM漂移检查:以下是我的发现

发布: (2026年3月23日 GMT+8 22:27)
4 分钟阅读
原文: Dev.to

Source: Dev.to

我分析了 300 条 LLM 漂移检查,覆盖了 6 个月的生产数据。以下是我的发现。

数据集

  • 6 个月的生产环境中 LLM 输出监控。
  • 多种模型:GPT‑4、GPT‑3.5、Claude 2、Claude 3。
  • 多种使用场景:分类、抽取、生成。
  • 300 条数据点。

什么是 LLM 漂移?

LLM 漂移指的是在未更改模型或提示词的情况下,模型的输出随时间发生变化。模型本身保持不变,但输出却不同。

这通常是因为模型提供商在后台更新模型权重、上下文分布发生变化,以及微调更新导致质量下降。

结果

漂移比你想象的更常见

  • 23 % 的监控端点在 30 天内出现可测量的漂移
  • 8 % 出现显著漂移(相对于基线的余弦距离 > 0.3)
  • 漂移最常见于:分类任务、结构化抽取、多步推理

漂移随任务类型而异

任务类型漂移率平均严重程度
分类31 %低‑中
抽取24 %
生成18 %
代码生成12 %
推理28 %中‑高

分类任务漂移最为明显。这是合理的——分类依赖于细微的模式识别。

漂移随模型而异

模型漂移率首次漂移的平均时间
GPT‑48 %45 天
GPT‑3.522 %12 天
Claude 218 %28 天
Claude 36 %60 天

Claude 3 和 GPT‑4 是最稳定的模型。较旧的模型漂移更快。

漂移最关键的场景

  • 分类决策——例如垃圾邮件分类器误将正常邮件标记为垃圾。
  • 数据抽取——例如发票抽取器漏掉字段,导致下游失败。
  • 质量门——例如代码审查 AI 批准了有缺陷的代码,引入漏洞。

对于创意写作、通用问答或头脑风暴,漂移的影响相对较小。

如何检测漂移

  1. 每周使用相同提示词运行基线输出。
  2. 对基线输出和当前输出进行嵌入。
  3. 测量余弦相似度。
  4. 当相似度低于 0.8 时触发警报。

解决方案

检测到漂移时:

  • 重新记录基线——接受新的输出为正确(最常见)。
  • 调整提示词——添加明确的约束。
  • 切换模型——迁移到更稳定的模型(成本最高)。

监控工具

Try DriftWatch — from GBP 9.90/mo

监控漂移,获取警报,在用户感知之前捕获性能下降。

0 浏览
Back to Blog

相关文章

阅读更多 »

你没有错误地提示它

背景 我在收听《The Pragmatic Engineer》关于“The Third Golden Age of Software Engineering”这一期时,听到 Grady Booch 的讲述。在节目中,他提到…