[Paper] 低成本黑盒检测 LLM 幻觉的动态系统预测

发布: 4天前 (2026年5月7日 GMT+8 01:07)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.05134v1

概述

大型语言模型（LLMs）在生成流畅文本方面表现出色，但它们常常会出现“幻觉”——看似合理却在事实层面错误的陈述。论文 Low‑Cost Black‑Box Detection of LLM Hallucinations via Dynamical System Prediction 提出了一种新颖的方法来发现这些错误，而无需像大多数现有检测器那样依赖大量计算或外部知识库。通过将 LLM 视为黑箱动力系统并应用 Koopman 算子理论的概念，作者实现了仅一次前向传播即可达到业界领先水平的检测效果。

关键贡献

黑箱动力系统视角： 将 LLM 输出序列重新构建为高维潜在状态空间中的轨迹， sidestepping 需要窥视模型内部的需求。
基于 Koopman 的转移建模： 学习线性算子以近似 factual 与 hallucinated 响应轨迹的演化，从而实现廉价的 prediction‑error 评分。
微分残差得分： 计算观测到的 token 嵌入与两种 regime‑specific Koopman 预测之间的 mismatch，产生稳健的 hallucination 指示器。
偏好感知校准： 引入轻量级、 demonstration‑driven 的阈值调优步骤，使用户能够根据领域风险将检测器偏向更高的 precision 或 recall。
实证验证： 在三个 benchmark 数据集上展示竞争或更优的性能，同时相比基于采样的检测器将推理成本削减最高达 70 %。

方法论

嵌入响应： 将 LLM 生成的每个 token（或子句）通过一个独立的、固定的嵌入模型（例如 sentence‑transformer）进行处理，以获得高维向量。
轨迹构建： 向量序列形成一个时间顺序的轨迹 ({x_t})，该轨迹被视为底层隐藏状态系统的可观测输出。
Koopman 算子拟合： 使用少量标记示例（事实 vs. 幻觉），作者拟合两个线性算子 (K_{\text{fact}}) 和 (K_{\text{hall}})，使其能够最佳预测下一个嵌入：
[ \hat{x}_{t+1}=K,x_t ]
不同的算子捕捉真实生成与不真实生成两种动态模式。
残差评分： 对于新的 LLM 响应，方法计算每个算子下的预测误差：
[ r_{\text{fact}} = |x_{t+1} - K_{\text{fact}}x_t|,\quad r_{\text{hall}} = |x_{t+1} - K_{\text{hall}}x_t| ]
差分残差 (s = r_{\text{hall}} - r_{\text{fact}}) 作为幻觉得分——正值表示更高的幻觉可能性。
校准层： 使用一个小的验证集（例如 50–100 条示例）来选取满足用户指定权衡的决策阈值（例如在医学建议中优先考虑精确度）。此步骤成本低廉，且在领域需求变化时可重新运行。

结果与发现

基准	指标 (F1)	基线（采样）	提出的方法
FactBench (news)	0.84	0.78	0.86
MedHall (clinical notes)	0.79	0.71	0.81
CodeHall (programming Q&A)	0.82	0.75	0.84

资源节省： 每次查询的平均推理时间从约 120 ms（5 次抽样一致性检查）降至约 35 ms，降低约 70 %。
对模型规模的鲁棒性： 检测器在参数规模从 7 B 到 175 B 的大型语言模型上均能工作，性能波动仅为轻微。
校准影响： 调整阈值以实现高精度模式后，精确率从 0.78 提升至 0.92，而召回率仅略降（0.68 → 0.62），展示了对风险容忍度的实际可控性。

实际影响

Plug‑and‑play safety layer: 由于该方法只需要 LLM 的输出和一个独立的嵌入模型，它可以包装在任何现有的 API（OpenAI、Anthropic 等）之上，无需对 LLM 进行再训练。
Low‑cost monitoring for production: 为处理数百万查询的 SaaS 平台添加幻觉检测几乎不增加 GPU 负载，从而保持延迟预算。
Domain‑specific risk management: 校准步骤允许监管领域（医疗、金融、法律）的团队设定更严格的阈值，使检测行为符合合规要求。
Developer tooling: IDE 扩展或 CI 流水线可以自动标记可能出现幻觉的代码片段或文档，集成此检测器以提升代码审查质量。
Open‑source friendliness: 该方法依赖公开可用的嵌入模型和简单的线性代数，便于在社区项目中复现和扩展。

限制与未来工作

嵌入依赖性: 检测质量取决于所选的嵌入模型；语义表示不佳可能会模糊事实与幻觉动态之间的区别。
仅限可观测轨迹: 极短的回答（例如单词答案）提供的时间数据不足，无法可靠地进行 Koopman 拟合，从而降低在此类情况下的效果。
校准数据需求: 虽然需求不大，但仍需要标记的示例集，这意味着在迁移到具有不同幻觉模式的新领域时，检测器必须重新校准。
未来方向: 作者建议探索非线性 Koopman 扩展（例如基于核的算子）以捕获更丰富的动态，并结合轻量级检索信号进一步提升对边缘案例事实查询的检测能力。

作者

Dan Wilson
Mohamed Akrout

论文信息

arXiv ID: 2605.05134v1
分类: cs.LG, math.DS
出版日期: 2026年5月6日
PDF: 下载 PDF

[Paper] 低成本黑盒检测 LLM 幻觉的动态系统预测

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择