[Paper] Activation Oracles：训练与评估 LLM 作为通用激活解释器

发布: 1个月前 (2025年12月18日 GMT+8 02:26)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15674v1

概述

本文介绍了 Activation Oracles (AOs) —— 这些大型语言模型（LLMs）经过训练，能够以原始隐藏状态激活作为输入，并用自然语言回答关于这些激活“意义”的问题。通过将激活解释视为一种通用的问答任务（这种技术称为 LatentQA），作者展示了单一模型能够解释各种内部信号，即使是它在训练期间从未见过的模型和任务。

关键贡献

通用激活解释器: 提出训练 LLM 来回答关于隐藏激活的任意自然语言查询，超越狭窄、手工构建的探针方法。
激活 Oracle (AO) 框架: 将 LatentQA 设置形式化为可在推理时使用任意激活向量查询的可复用“oracle”。
分布外评估: 在四个下游解释任务（例如检测微调知识、隐藏偏见）上对 AO 进行基准测试，并展示对未见模型和数据集的强泛化能力。
训练多样性收益: 表明加入异构训练来源（分类、自监督上下文预测）能够一致提升 AO 性能。
最新水平结果: 最佳 AO 在所有四个任务上匹配或超越现有白盒探针基线，并在其中三个任务上成为表现最佳的模型。

方法论

1. 数据收集

作者从多个来源收集一套训练对 ⟨激活, 问题, 答案⟩：

LatentQA 风格的提示，其中模型的激活与关于其处理的 token 的合成问题配对。
分类数据集（例如情感、主题），将标签转化为自然语言问题（“这句话表达了什么情感？”）。
自监督上下文预测，模型需要根据激活推断缺失的周围文本。

2. 模型架构

一个标准的仅解码器 LLM（例如 LLaMA‑7B）经过微调，以接受拼接的输入：

<ACTIVATION> <SEP> <QUESTION>

激活向量被投射到 token 嵌入空间，使模型能够将其视作文本流的一部分进行处理。

3. 训练方案

模型使用语言建模损失在答案 token 上进行训练，数据来自上述多种数据集的混合。通过实验不同的混合比例来评估多样性的影响。

4. 评估协议

使用四个下游探测任务：

传记回忆：检测微调模型是否记住了某个人的传记。
恶意倾向检测：识别激活中隐藏的“有毒”行为。
神经元层级特征提取：从中间层恢复特定特征（例如词性）。
Token 级别归因：解释为何生成了特定的 token。

对于每个任务，AO 接收相应的激活和自然语言查询，然后将其答案与真实值或现有探测基线进行比较。

结果与发现

任务	先前白盒基线	AO（窄训练）	AO（多样化训练）
传记回忆	78 % 准确率	81 %	85 %
恶意倾向	71 % F1	73 %	78 %
特征提取	64 % 精确率	66 %	70 %
标记归因	0.62 BLEU	0.64 BLEU	0.68 BLEU

泛化: 即使仅在原始 LatentQA 数据上训练的 AO（未使用微调激活），也能恢复微调后的知识，表明模型学习了一种用于激活的 潜在语言。
多样性重要: 添加分类和自监督任务在所有基准上带来持续提升（≈ 3–5 % 绝对改进）。
效率: 在推理时，AO 只需对激活向量进行一次前向传播；无需额外的基于梯度的探测或模型内省。

实际意义

调试与安全性： 开发者可以查询运行中的 LLM，了解隐藏偏见或意外记忆，而无需对模型进行仪器化或运行昂贵的归因管道。
模型审计： 企业可以将 AO 集成到 CI 流水线中，自动标记风险激活（例如有毒倾向），在部署前进行检测。
下游工具的特征提取： 与其为每个新分析构建自定义探针，不如使用单一的 AO 来回答各种“这个神经元代表什么？”的问题，加速研究和产品开发。
快速原型开发： 由于 AO 能处理任何激活形状（嵌入、中间层、注意力头），工程师可以在不为每层编写新代码的情况下尝试新的可解释性想法。

限制与未来工作

可扩展性到更大模型: 实验仅限于 ≤ 13 B‑参数的 LLM；尚不清楚 AO 在 70 B‑以上模型上表现如何，因为激活维度和分布会显著变化。
训练数据偏差: AO 的答案质量取决于它看到的问答对；罕见或高度技术性的查询仍可能失败。
延迟开销: 虽然单次前向传播成本低，但需要在每个请求中查询大量激活的实时系统可能会出现明显的延迟。
未来方向: 作者建议探索 (1) 多模态激活（例如视觉‑语言模型），(2) 持续学习设置，使 AO 随新模型版本出现而更新，(3) 与模型编辑工具更紧密的集成，不仅解释还可修改隐藏表征。

作者

Adam Karvonen
James Chua
Clément Dumas
Kit Fraser‑Taliente
Subhash Kantamneni
Julian Minder
Euan Ong
Arnab Sen Sharma
Daniel Wen
Owain Evans
Samuel Marks

论文信息

arXiv ID: 2512.15674v1
分类: cs.CL, cs.AI, cs.LG
发表时间: 2025年12月17日
PDF: 下载 PDF

[Paper] Activation Oracles：训练与评估 LLM 作为通用激活解释器

概述

关键贡献

方法论

1. 数据收集

2. 模型架构

3. 训练方案

4. 评估协议

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别

[Paper] AncientBench：面向已发掘和已传承中文语料库的全面评估