[Paper] 训练内省行为：微调在 7B 模型中诱导可靠的内部状态检测

发布: 2个月前 (2025年11月26日 GMT+8 21:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21399v1

概述

本文展示了一种 70 亿参数的语言模型可以被训练可靠地注意并报告短暂注入其隐藏状态的“思考”。通过在一个简单的单 token 注入任务上进行微调，作者将检测准确率从几乎为零提升至约 85 %，并消除了误报，证明内省行为可以通过训练获得，而不是仅凭偶然出现。

内省微调： 证明少量监督训练即可将几乎无用的模型转变为能够持续检测瞬时内部激活的模型。
高精度检测： 在未见概念上实现 85 % 的准确率且误报率为 0 %（α = 40），满足 Lindsey (2025) 提出的四项内省意识标准中的三项。
概念跨域泛化： 已见与未见概念之间的性能差距为 7.5 个百分点，表明模型学习的是可迁移的检测技能，而非记忆特定模式。
AI 透明性的基准： 提供了首个实证证据，说明训练可以弥合自发出现内省行为的模型与不具备该行为的模型之间的差距，为 LLM 中内置自我监控铺平道路。

注入任务定义 – 作者在生成过程中于特定位置向模型的隐藏状态注入表示语义概念的单个 token（例如 “apple”）。该注入是短暂的：在下一次前向传播后即消失。
数据集构建 – 生成数千条简短提示，每条提示配对一个从预计算概念嵌入池中随机抽取的注入向量。每个提示的真实标签即为注入的概念。
微调方案 – 使用标准监督学习，模型被训练在继续正常文本生成之前输出一个特殊的 “report” token，拼写出注入的概念。损失函数结合了报告的交叉熵项和保持下游生成质量的语言模型项。
评估协议 – 训练后，模型在两套数据上进行测试：(a) 已见概念——在微调期间出现过的概念；(b) 未见概念——从训练中保留的概念。准确率衡量正确报告的比例，误报率计数模型在没有注入时仍报告概念的情况。

核心结论： 通过对中等规模语言模型进行微调，作者证明内省检测是一种可学习的能力，为构建更透明、自觉的 AI 系统奠定了基础。