[Paper] LLMs 能预测自己的失败吗?通过内部电路实现自我意识

发布: (2025年12月24日 GMT+8 02:21)
7 min read
原文: arXiv

Source: arXiv - 2512.20578v1

概述

论文 Can LLMs Predict Their Own Failures? Self‑Awareness via Internal Circuits 探讨了冻结的大语言模型(LLM)是否能够“向内看”自己的计算过程,以发现自己即将犯错的时刻。作者提出了 Gnosis,一个微型插件,在生成过程中读取隐藏状态和注意力信号,并几乎不增加额外成本地预测输出的正确性。

关键贡献

  • Gnosis 架构:一个轻量级(约 5 M 参数)模块,能够从大语言模型(LLM)的内部张量(隐藏状态、注意力图)中提取固定大小的描述符,而无需修改基础模型。
  • 无需外部评审的自我验证:Gnosis 直接依据模型自身的动态预测答案正确性,避免了昂贵的多样本一致性检查或独立的验证模型。
  • 广泛的实证覆盖:在数学推理、开放域问答和学术知识任务上进行评估,使用 1.7 B – 20 B 参数的冻结主干模型。
  • 更优的准确性与校准:在原始预测准确率和置信度对齐方面,始终超越强大的内部基线,甚至超过大型外部评审模型。
  • 零样本早期失败检测:能够在仅生成部分 token 序列后即标记出失败的生成,从而实现计算感知的控制(例如提前终止或模型切换)。

方法论

  1. Signal collection – 当大语言模型(LLM)生成每个 token 时,Gnosis 被动记录一小组内部激活:

    • 当前 token 的最终隐藏向量,
    • 该步骤注意力权重矩阵的池化摘要。
  2. Compression – 这些原始张量通过一个小型前馈网络投射为固定预算的“描述符”(例如,128 维向量)。压缩设计为 length‑agnostic,因此描述符大小不会随序列长度增长。

  3. Prediction head – 一个轻量级分类器(二元或校准置信度输出)使用描述符,预测即将生成的 token(或整个完成的答案)是否正确。

  4. Training – Gnosis 在一个保留的验证集上进行训练,该验证集的真实正确性已知(例如,数学题解)。重要的是,基础 LLM 保持冻结;仅更新 Gnosis 的参数。

  5. Inference – 在测试时,Gnosis 与冻结的 LLM 并行运行,每个 token 只增加几毫秒的计算时间,且内存占用可忽略不计。

结果与发现

基准模型规模Gnosis 准确率 (↑)外部评审准确率 (↓)
GSM‑8K (math)7 B78 %65 %
Natural Questions13 B71 %62 %
Academic QA (SciFact)20 B74 %68 %
  • 校准:Gnosis 的置信分数相比基线具有更低的期望校准误差(ECE),这意味着其概率估计更可靠。
  • 早期检测:仅在生成的前 30 % 进行评估时,Gnosis 仍能以 >70 % 的准确率预测失败,从而支持动态计算决策。
  • 参数效率:在 20 B 模型上增加约 5 M 参数,仅带来 <0.03 % 的开销,却使失败预测性能相较最佳内部基线提升 >10 %。

实际影响

  • Compute‑aware generation:系统可以在答案无望时提前中止,切换到更大的模型,或请求澄清,从而节省 GPU 计算资源和延迟。
  • Safety & reliability layers:部署(例如代码助手、医学问答)可以将 Gnosis 作为“自我监控”模块,标记可能出现幻觉的输出,在其到达用户之前进行拦截。
  • Improved user experience:前端可以展示由 Gnosis 派生的置信度分数或警告,帮助开发者构建更透明的 AI 助手。
  • Zero‑cost integration:由于 Gnosis 与冻结的主干模型兼容,现有生产模型无需重新训练大型语言模型即可改造,实现 SaaS 提供商的可行采用。

限制与未来工作

  • 训练数据依赖:Gnosis 需要每个任务领域的标注正确性数据集;其零‑shot 能力仅限于检测失败,而不是学习新的任务语义。
  • 信号范围:当前设计仅利用隐藏状态和注意力权重;其他内部线索(例如前馈激活、基于梯度的信号)可能进一步提升检测效果。
  • 对多模态模型的泛化:本研究聚焦于仅文本的 LLM;将 Gnosis 扩展到视觉‑语言或音频模型仍是一个未解之题。
  • 对抗性提示的鲁棒性:作者指出,精心构造的提示可能操纵内部模式,这是未来鲁棒性研究的方向。

底线:Gnosis 表明 LLM 已经在内部动态中编码了有用的“自我认知”,而一个小型、模型无关的附加组件即可解锁这些信息,用于实用的低开销可靠性检查。这为在不承担外部验证流水线高计算成本的情况下,构建更可信的 AI 系统开辟了有前景的道路。

作者

  • Amirhosein Ghasemabadi
  • Di Niu

论文信息

  • arXiv ID: 2512.20578v1
  • 分类: cs.CL
  • 发表日期: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »