[Paper] LLMs 能预测自己的失败吗？通过内部电路实现自我意识

发布: 1个月前 (2025年12月24日 GMT+8 02:21)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20578v1

概述

论文 Can LLMs Predict Their Own Failures? Self‑Awareness via Internal Circuits 探讨了冻结的大语言模型（LLM）是否能够“向内看”自己的计算过程，以发现自己即将犯错的时刻。作者提出了 Gnosis，一个微型插件，在生成过程中读取隐藏状态和注意力信号，并几乎不增加额外成本地预测输出的正确性。

关键贡献

Gnosis 架构：一个轻量级（约 5 M 参数）模块，能够从大语言模型（LLM）的内部张量（隐藏状态、注意力图）中提取固定大小的描述符，而无需修改基础模型。
无需外部评审的自我验证：Gnosis 直接依据模型自身的动态预测答案正确性，避免了昂贵的多样本一致性检查或独立的验证模型。
广泛的实证覆盖：在数学推理、开放域问答和学术知识任务上进行评估，使用 1.7 B – 20 B 参数的冻结主干模型。
更优的准确性与校准：在原始预测准确率和置信度对齐方面，始终超越强大的内部基线，甚至超过大型外部评审模型。
零样本早期失败检测：能够在仅生成部分 token 序列后即标记出失败的生成，从而实现计算感知的控制（例如提前终止或模型切换）。

方法论

Signal collection – 当大语言模型（LLM）生成每个 token 时，Gnosis 被动记录一小组内部激活：
- 当前 token 的最终隐藏向量，
- 该步骤注意力权重矩阵的池化摘要。
Compression – 这些原始张量通过一个小型前馈网络投射为固定预算的“描述符”（例如，128 维向量）。压缩设计为 length‑agnostic，因此描述符大小不会随序列长度增长。
Prediction head – 一个轻量级分类器（二元或校准置信度输出）使用描述符，预测即将生成的 token（或整个完成的答案）是否正确。
Training – Gnosis 在一个保留的验证集上进行训练，该验证集的真实正确性已知（例如，数学题解）。重要的是，基础 LLM 保持冻结；仅更新 Gnosis 的参数。
Inference – 在测试时，Gnosis 与冻结的 LLM 并行运行，每个 token 只增加几毫秒的计算时间，且内存占用可忽略不计。

结果与发现

基准	模型规模	Gnosis 准确率 (↑)	外部评审准确率 (↓)
GSM‑8K (math)	7 B	78 %	65 %
Natural Questions	13 B	71 %	62 %
Academic QA (SciFact)	20 B	74 %	68 %

校准：Gnosis 的置信分数相比基线具有更低的期望校准误差（ECE），这意味着其概率估计更可靠。
早期检测：仅在生成的前 30 % 进行评估时，Gnosis 仍能以 >70 % 的准确率预测失败，从而支持动态计算决策。
参数效率：在 20 B 模型上增加约 5 M 参数，仅带来 <0.03 % 的开销，却使失败预测性能相较最佳内部基线提升 >10 %。

实际影响

Compute‑aware generation：系统可以在答案无望时提前中止，切换到更大的模型，或请求澄清，从而节省 GPU 计算资源和延迟。
Safety & reliability layers：部署（例如代码助手、医学问答）可以将 Gnosis 作为“自我监控”模块，标记可能出现幻觉的输出，在其到达用户之前进行拦截。
Improved user experience：前端可以展示由 Gnosis 派生的置信度分数或警告，帮助开发者构建更透明的 AI 助手。
Zero‑cost integration：由于 Gnosis 与冻结的主干模型兼容，现有生产模型无需重新训练大型语言模型即可改造，实现 SaaS 提供商的可行采用。

限制与未来工作

训练数据依赖：Gnosis 需要每个任务领域的标注正确性数据集；其零‑shot 能力仅限于检测失败，而不是学习新的任务语义。
信号范围：当前设计仅利用隐藏状态和注意力权重；其他内部线索（例如前馈激活、基于梯度的信号）可能进一步提升检测效果。
对多模态模型的泛化：本研究聚焦于仅文本的 LLM；将 Gnosis 扩展到视觉‑语言或音频模型仍是一个未解之题。
对抗性提示的鲁棒性：作者指出，精心构造的提示可能操纵内部模式，这是未来鲁棒性研究的方向。

底线：Gnosis 表明 LLM 已经在内部动态中编码了有用的“自我认知”，而一个小型、模型无关的附加组件即可解锁这些信息，用于实用的低开销可靠性检查。这为在不承担外部验证流水线高计算成本的情况下，构建更可信的 AI 系统开辟了有前景的道路。

作者

Amirhosein Ghasemabadi
Di Niu

论文信息

arXiv ID: 2512.20578v1
分类: cs.CL
发表日期: 2025年12月23日
PDF: 下载 PDF

[Paper] LLMs 能预测自己的失败吗？通过内部电路实现自我意识

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

[Paper] 介绍 TrGLUE 与 SentiTurca：土耳其语通用语言理解与情感分析的综合基准

[Paper] 统一学习动力学与泛化的Transformer缩放定律

[Paper] 将上下文作为工具：长时程 SWE-Agents 的上下文管理