[Paper] 低成本黑盒检测 LLM 幻觉 的 动态系统预测

发布: (2026年5月7日 GMT+8 01:07)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.05134v1

概述

大型语言模型(LLMs)在生成流畅文本方面表现出色,但它们常常会出现“幻觉”——看似合理却在事实层面错误的陈述。论文 Low‑Cost Black‑Box Detection of LLM Hallucinations via Dynamical System Prediction 提出了一种新颖的方法来发现这些错误,而无需像大多数现有检测器那样依赖大量计算或外部知识库。通过将 LLM 视为黑箱动力系统并应用 Koopman 算子理论的概念,作者实现了仅一次前向传播即可达到业界领先水平的检测效果。

关键贡献

  • 黑箱动力系统视角: 将 LLM 输出序列重新构建为高维潜在状态空间中的轨迹, sidestepping 需要窥视模型内部的需求。
  • 基于 Koopman 的转移建模: 学习线性算子以近似 factual 与 hallucinated 响应轨迹的演化,从而实现廉价的 prediction‑error 评分。
  • 微分残差得分: 计算观测到的 token 嵌入与两种 regime‑specific Koopman 预测之间的 mismatch,产生稳健的 hallucination 指示器。
  • 偏好感知校准: 引入轻量级、 demonstration‑driven 的阈值调优步骤,使用户能够根据领域风险将检测器偏向更高的 precision 或 recall。
  • 实证验证: 在三个 benchmark 数据集上展示竞争或更优的性能,同时相比基于采样的检测器将推理成本削减最高达 70 %。

方法论

  1. 嵌入响应: 将 LLM 生成的每个 token(或子句)通过一个独立的、固定的嵌入模型(例如 sentence‑transformer)进行处理,以获得高维向量。
  2. 轨迹构建: 向量序列形成一个时间顺序的轨迹 ({x_t}),该轨迹被视为底层隐藏状态系统的可观测输出。
  3. Koopman 算子拟合: 使用少量标记示例(事实 vs. 幻觉),作者拟合两个线性算子 (K_{\text{fact}}) 和 (K_{\text{hall}}),使其能够最佳预测下一个嵌入:
    [ \hat{x}_{t+1}=K,x_t ]
    不同的算子捕捉真实生成与不真实生成两种动态模式。
  4. 残差评分: 对于新的 LLM 响应,方法计算每个算子下的预测误差:
    [ r_{\text{fact}} = |x_{t+1} - K_{\text{fact}}x_t|,\quad r_{\text{hall}} = |x_{t+1} - K_{\text{hall}}x_t| ]
    差分残差 (s = r_{\text{hall}} - r_{\text{fact}}) 作为幻觉得分——正值表示更高的幻觉可能性。
  5. 校准层: 使用一个小的验证集(例如 50–100 条示例)来选取满足用户指定权衡的决策阈值(例如在医学建议中优先考虑精确度)。此步骤成本低廉,且在领域需求变化时可重新运行。

结果与发现

基准指标 (F1)基线(采样)提出的方法
FactBench (news)0.840.780.86
MedHall (clinical notes)0.790.710.81
CodeHall (programming Q&A)0.820.750.84
  • 资源节省: 每次查询的平均推理时间从约 120 ms(5 次抽样一致性检查)降至约 35 ms,降低约 70 %。
  • 对模型规模的鲁棒性: 检测器在参数规模从 7 B 到 175 B 的大型语言模型上均能工作,性能波动仅为轻微。
  • 校准影响: 调整阈值以实现高精度模式后,精确率从 0.78 提升至 0.92,而召回率仅略降(0.68 → 0.62),展示了对风险容忍度的实际可控性。

实际影响

  • Plug‑and‑play safety layer: 由于该方法只需要 LLM 的输出和一个独立的嵌入模型,它可以包装在任何现有的 API(OpenAI、Anthropic 等)之上,无需对 LLM 进行再训练。
  • Low‑cost monitoring for production: 为处理数百万查询的 SaaS 平台添加幻觉检测几乎不增加 GPU 负载,从而保持延迟预算。
  • Domain‑specific risk management: 校准步骤允许监管领域(医疗、金融、法律)的团队设定更严格的阈值,使检测行为符合合规要求。
  • Developer tooling: IDE 扩展或 CI 流水线可以自动标记可能出现幻觉的代码片段或文档,集成此检测器以提升代码审查质量。
  • Open‑source friendliness: 该方法依赖公开可用的嵌入模型和简单的线性代数,便于在社区项目中复现和扩展。

限制与未来工作

  • 嵌入依赖性: 检测质量取决于所选的嵌入模型;语义表示不佳可能会模糊事实与幻觉动态之间的区别。
  • 仅限可观测轨迹: 极短的回答(例如单词答案)提供的时间数据不足,无法可靠地进行 Koopman 拟合,从而降低在此类情况下的效果。
  • 校准数据需求: 虽然需求不大,但仍需要标记的示例集,这意味着在迁移到具有不同幻觉模式的新领域时,检测器必须重新校准。
  • 未来方向: 作者建议探索非线性 Koopman 扩展(例如基于核的算子)以捕获更丰富的动态,并结合轻量级检索信号进一步提升对边缘案例事实查询的检测能力。

作者

  • Dan Wilson
  • Mohamed Akrout

论文信息

  • arXiv ID: 2605.05134v1
  • 分类: cs.LG, math.DS
  • 出版日期: 2026年5月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »