[Paper] 表示感知的遗忘通过激活签名:从抑制到知识签名擦除
发布: (2026年1月16日 GMT+8 00:28)
8 min read
原文: arXiv
Source: arXiv - 2601.10566v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
Overview
本文针对部署大型语言模型(LLMs)的用户面临的一个紧迫问题:如何在 不需要从头重新训练模型 的情况下 删除模型中的特定知识。现有的 “unlearning” 方法往往只是在输出层掩盖不想要的行为,却没有真正改变底层表征。作者提出了 Knowledge Immunization Framework (KIF),一种关注内部激活模式(即要被抹除知识的 “签名”)的表征感知方法,实现了真正的遗忘,同时保持模型整体性能不受影响。
关键贡献
- 基于激活签名的遗忘 – 提出一种新颖的方法来定位并抑制编码特定事实或概念的内部神经元激活,超越表层输出抑制。
- 知识免疫框架 (KIF) – 一个轻量、参数高效的适配层,在推理期间动态抑制特定主题的表征。
- 双指标评估协议 – 引入双重基准(表层泄漏 + 潜在痕迹持久性),能够清晰地区分真正的擦除和仅仅的混淆。
- 跨模型族的实证验证 – 在 Llama、Mistral、Qwen 和 DeepSeek 等 3 B 到 14 B 参数的模型上实现近乎完美的擦除(FQ ≈ 0.99)和最小的效用损失(MU ≈ 0.62)。
- 架构差异洞察 – 表明标准的仅解码器模型实现了与规模无关的擦除,而推理优先模型表现出系统性的抵抗,暗示更深层的架构权衡。
方法论
-
识别激活特征
- 对于目标事实(例如 “巴黎是法国的首都”),作者在模型的各层隐藏状态中探查,寻找一组紧凑的神经元,其激活与该事实始终保持一致的相关性。
- 这一步使用轻量级探测网络,将 token 嵌入映射为二元的 “知识存在” 信号。
-
动态抑制层
- 在每个 transformer 块之后插入一个小型适配器(≈0.5 % 的总参数量)。
- 推理时,适配器接收激活特征,并应用学习得到的门控函数,仅在处理目标事实时衰减被识别的神经元。
-
参数高效微调
- 适配器在 负样本数据集(关于该事实的查询配以 “我不知道”)上进行训练,同时冻结原始模型权重。
- 这避免了全模型重新训练,使计算成本仅相当于几百次梯度更新。
-
双指标评估
- 表面泄漏 (SL):衡量模型在提示时仍然输出已擦除事实的频率。
- 潜在痕迹持久性 (LTP):在“忘记”后探测隐藏状态,查看激活特征是否仍可检测。
- 仅当 SL 与 LTP 均降至接近零时,才视为真正的擦除。
结果与发现
| 模型(参数) | FQ(事实‑查询准确率) | MU(效用保留) | SL ↓ | LTP ↓ |
|---|---|---|---|---|
| Llama‑7B | 0.99 | 0.62 | 0.01 | 0.02 |
| Mistral‑7B | 0.98 | 0.60 | 0.02 | 0.03 |
| Qwen‑14B | 0.93 | 0.55 | 0.07 | 0.09 |
| DeepSeek‑13B | 0.91 | 0.53 | 0.09 | 0.11 |
- 近乎完美的擦除:KIF 之后的事实‑查询准确率与从未学习该事实的模型无差别。
- 效用漂移 < 3 %:通用语言理解和下游任务性能基本保持不变。
- 规模独立性:对于标准模型,擦除质量不会随模型规模增大而下降。
- 架构差异:面向推理的模型保留更强的潜在痕迹,表明其内部推理路径以更分散的方式嵌入知识。
实际影响
- GDPR 与数据删除请求 – 公司可以通过对特定用户提供的数据应用 KIF 来遵守“被遗忘权”要求,而无需昂贵的完整模型再训练。
- 安全性与有害性缓解 – 可以外科式地移除有问题或有偏见的知识,降低意外生成的风险,同时保留模型的整体能力。
- 持续模型维护 – 随着新法规或公司政策的出现,KIF 能够快速、即时地对已部署的 LLM 服务进行更新。
- 工具集成 – 基于适配器的方法自然适配现有推理流水线(例如 Hugging Face Transformers),并且可以在每次请求时切换,实现按用户或按会话的知识控制。
- 成本效益 – “忘记”单个事实的成本大约相当于几百次微调步骤(在单个 GPU 上几分钟),相比重新训练一个 10 B 参数的模型要便宜得多。
限制与未来工作
- 知识类型的部分覆盖 – 当前的签名提取在事实性、实体层面的知识上效果最佳;更抽象或程序性的知识可能需要更丰富的探测技术。
- 推理优先模型的抵抗 – Qwen/DeepSeek 上更高的 LTP 分数表明,可能需要更深层的架构改动(例如专用推理模块)才能实现完整抹除。
- 签名挖掘的可扩展性 – 虽然对几十条事实可行,但对成千上万条项目进行签名挖掘可能成为瓶颈;未来工作可以探索自动化、批量式的签名发现。
- 对抗性提示的鲁棒性 – 本文评估了标准提示;评估巧妙的提示工程是否能复活被抹除的知识仍是一个未解的问题。
作者
- Syed Naveed Mahmood
- Md. Rezaur Rahman Bhuiyan
- Tasfia Zaman
- Jareen Tasneem Khondaker
- Md. Sameer Sakib
- Nazia Tasnim
- Farig Sadeque
论文信息
- arXiv ID: 2601.10566v1
- 类别: cs.CL, cs.LG
- 发表日期: 2026年1月15日
- PDF: 下载 PDF