[Paper] 低成本黑盒检测 LLM 幻觉 的 动态系统预测
发布: (2026年5月7日 GMT+8 01:07)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.05134v1
概述
大型语言模型(LLMs)在生成流畅文本方面表现出色,但它们常常会出现“幻觉”——看似合理却在事实层面错误的陈述。论文 Low‑Cost Black‑Box Detection of LLM Hallucinations via Dynamical System Prediction 提出了一种新颖的方法来发现这些错误,而无需像大多数现有检测器那样依赖大量计算或外部知识库。通过将 LLM 视为黑箱动力系统并应用 Koopman 算子理论的概念,作者实现了仅一次前向传播即可达到业界领先水平的检测效果。
关键贡献
- 黑箱动力系统视角: 将 LLM 输出序列重新构建为高维潜在状态空间中的轨迹, sidestepping 需要窥视模型内部的需求。
- 基于 Koopman 的转移建模: 学习线性算子以近似 factual 与 hallucinated 响应轨迹的演化,从而实现廉价的 prediction‑error 评分。
- 微分残差得分: 计算观测到的 token 嵌入与两种 regime‑specific Koopman 预测之间的 mismatch,产生稳健的 hallucination 指示器。
- 偏好感知校准: 引入轻量级、 demonstration‑driven 的阈值调优步骤,使用户能够根据领域风险将检测器偏向更高的 precision 或 recall。
- 实证验证: 在三个 benchmark 数据集上展示竞争或更优的性能,同时相比基于采样的检测器将推理成本削减最高达 70 %。
方法论
- 嵌入响应: 将 LLM 生成的每个 token(或子句)通过一个独立的、固定的嵌入模型(例如 sentence‑transformer)进行处理,以获得高维向量。
- 轨迹构建: 向量序列形成一个时间顺序的轨迹 ({x_t}),该轨迹被视为底层隐藏状态系统的可观测输出。
- Koopman 算子拟合: 使用少量标记示例(事实 vs. 幻觉),作者拟合两个线性算子 (K_{\text{fact}}) 和 (K_{\text{hall}}),使其能够最佳预测下一个嵌入:
[ \hat{x}_{t+1}=K,x_t ]
不同的算子捕捉真实生成与不真实生成两种动态模式。 - 残差评分: 对于新的 LLM 响应,方法计算每个算子下的预测误差:
[ r_{\text{fact}} = |x_{t+1} - K_{\text{fact}}x_t|,\quad r_{\text{hall}} = |x_{t+1} - K_{\text{hall}}x_t| ]
差分残差 (s = r_{\text{hall}} - r_{\text{fact}}) 作为幻觉得分——正值表示更高的幻觉可能性。 - 校准层: 使用一个小的验证集(例如 50–100 条示例)来选取满足用户指定权衡的决策阈值(例如在医学建议中优先考虑精确度)。此步骤成本低廉,且在领域需求变化时可重新运行。
结果与发现
| 基准 | 指标 (F1) | 基线(采样) | 提出的方法 |
|---|---|---|---|
| FactBench (news) | 0.84 | 0.78 | 0.86 |
| MedHall (clinical notes) | 0.79 | 0.71 | 0.81 |
| CodeHall (programming Q&A) | 0.82 | 0.75 | 0.84 |
- 资源节省: 每次查询的平均推理时间从约 120 ms(5 次抽样一致性检查)降至约 35 ms,降低约 70 %。
- 对模型规模的鲁棒性: 检测器在参数规模从 7 B 到 175 B 的大型语言模型上均能工作,性能波动仅为轻微。
- 校准影响: 调整阈值以实现高精度模式后,精确率从 0.78 提升至 0.92,而召回率仅略降(0.68 → 0.62),展示了对风险容忍度的实际可控性。
实际影响
- Plug‑and‑play safety layer: 由于该方法只需要 LLM 的输出和一个独立的嵌入模型,它可以包装在任何现有的 API(OpenAI、Anthropic 等)之上,无需对 LLM 进行再训练。
- Low‑cost monitoring for production: 为处理数百万查询的 SaaS 平台添加幻觉检测几乎不增加 GPU 负载,从而保持延迟预算。
- Domain‑specific risk management: 校准步骤允许监管领域(医疗、金融、法律)的团队设定更严格的阈值,使检测行为符合合规要求。
- Developer tooling: IDE 扩展或 CI 流水线可以自动标记可能出现幻觉的代码片段或文档,集成此检测器以提升代码审查质量。
- Open‑source friendliness: 该方法依赖公开可用的嵌入模型和简单的线性代数,便于在社区项目中复现和扩展。
限制与未来工作
- 嵌入依赖性: 检测质量取决于所选的嵌入模型;语义表示不佳可能会模糊事实与幻觉动态之间的区别。
- 仅限可观测轨迹: 极短的回答(例如单词答案)提供的时间数据不足,无法可靠地进行 Koopman 拟合,从而降低在此类情况下的效果。
- 校准数据需求: 虽然需求不大,但仍需要标记的示例集,这意味着在迁移到具有不同幻觉模式的新领域时,检测器必须重新校准。
- 未来方向: 作者建议探索非线性 Koopman 扩展(例如基于核的算子)以捕获更丰富的动态,并结合轻量级检索信号进一步提升对边缘案例事实查询的检测能力。
作者
- Dan Wilson
- Mohamed Akrout
论文信息
- arXiv ID: 2605.05134v1
- 分类: cs.LG, math.DS
- 出版日期: 2026年5月6日
- PDF: 下载 PDF