[Paper] 内部表征作为代理工具选择中幻觉的指标
发布: (2026年1月9日 GMT+8 02:38)
7 min read
原文: arXiv
Source: arXiv - 2601.05214v1
概述
本文探讨了大型语言模型(LLM)代理的一个细微但关键的失效模式:错误地“幻觉”出工具、参数格式错误,或完全“绕过”工具。虽然 LLM 可以调用 API、运行 shell 或查询数据库,但它们有时会生成看似合理的输出,却实际上从未真正调用预期的外部服务。作者提出了一种轻量级、实时检测框架,该框架在生成使用的同一次前向传播过程中读取模型的内部隐藏状态,在这些幻觉导致下游问题之前进行标记。
关键贡献
- In‑situ hallucination detector: 利用中间 token 级别的表示(注意力权重、隐藏激活)来预测工具调用错误,无需额外的模型遍历或外部验证器。
- Unified detection of three error types: (1) 错误的工具选择,(2) 参数格式错误或缺失,(3) 工具绕过(模拟而非真实调用)。
- Domain‑agnostic evaluation: 在涵盖代码执行、网页搜索和数据检索任务的推理基准上进行测试,在实时设置中实现最高 86.4 % 准确率。
- Minimal overhead: 检测器在典型的 7B 参数 LLM 上仅增加 < 5 ms 的延迟,保持了生产代理所需的低延迟保证。
- Open‑source reference implementation: 包含适用于流行 LLM 推理库(如 HuggingFace Transformers、vLLM)的即插即用包装器。
方法论
- 对前向传播进行仪表化 – 当 LLM 生成下一个 token 时,框架提取一小组隐藏向量(例如最后一层隐藏状态和 “tool‑call” token 的注意力分数)。
- 特征构建 – 将这些向量投射到轻量级分类器(一个 2‑层 MLP),该分类器已在标记为正确与幻觉工具调用的数据集上进行微调。
- 二元决策 – 分类器输出置信分数;如果超过可配置阈值,系统中止生成,记录事件,并可选择回退到安全默认(例如请求用户澄清或调用验证服务)。
- 训练数据 – 作者创建了一个合成语料库,其中相同的提示配对了正确的工具调用和故意损坏的版本(错误工具、缺少参数或模拟输出)。这产生了一个平衡的训练集,无需昂贵的人类标注。
整个流水线在单次前向传播中运行,这意味着检测器不需要第二次推理或单独的验证模型。
结果与发现
| 任务领域 | 检测准确率 | 精确率(幻觉) | 召回率(幻觉) |
|---|---|---|---|
| 代码执行(Python REPL) | 84.1 % | 0.88 | 0.79 |
| 网络搜索 API | 86.4 % | 0.91 | 0.82 |
| 数据库查询工具 | 81.7 % | 0.85 | 0.78 |
| 混合领域基准 | 83.2 % | 0.87 | 0.80 |
- 参数级错误(例如,格式错误的 JSON)检测召回率最高(> 85 %)。
- 工具绕过情况(模型“假装”运行工具)最为困难,但仍实现了 > 80 % 的精确率。
- 添加检测器后,GPU 加速的推理服务器的端到端延迟增加了 3–5 ms,仍在交互式代理的典型 SLA 窗口范围内。
实际影响
- 更安全的生产代理 – 实时检测可以在可疑工具调用到达外部服务之前拒绝或隔离它们,保护 API 密钥、速率限制和审计日志。
- 减少调试时间 – 开发者可以在其代理中嵌入检测器,并在出现幻觉时立即收到警报,从而减少事后分析的时间。
- 成本节约 – 通过避免不必要的外部调用(尤其是付费 API),组织可以降低运营费用。
- 合规与审计 – 该框架可以集成到现有的安全流水线中,以强制执行“不可绕过”策略,确保每个操作都有可追溯性。
- 即插即用集成 – 由于检测器工作在隐藏状态上,它可以添加到任何基于 Transformer 的大语言模型,而无需重新训练基础模型,这对使用现成模型的团队(例如 OpenAI 的 GPT‑4、LLaMA‑2、Claude)具有吸引力。
限制与未来工作
- 模型特定调优 – 分类器在少数模型规模(7B–13B)上进行训练。要转移到更大或根本不同的架构(例如,仅解码器 vs 编码器‑解码器),可能需要额外的微调。
- 合成训练偏差 – 虽然合成幻觉覆盖了许多模式,但可能无法捕捉生产中出现的罕见真实世界边缘案例。
- 阈值敏感性 – 选择检测阈值需要在误报(不必要的中止)和漏检幻觉之间权衡;针对不同领域的自适应阈值是一个开放的研究方向。
- 超越工具调用的扩展 – 作者计划探索相同的内部表示信号是否能标记其他 LLM 失效,如事实不准确或政策违规。
总体而言,本文提供了一种务实、低开销的解决方案,使基于 LLM 的代理的可靠性更接近生产级标准。
作者
- Kait Healy
- Bharathi Srinivasan
- Visakh Madathil
- Jing Wu
论文信息
- arXiv ID: 2601.05214v1
- 分类: cs.AI
- 发表时间: 2026年1月8日
- PDF: 下载 PDF