[Paper] 在关键位置最大化局部熵:前缀感知局部化 LLM Unlearning
发布: (2026年1月7日 GMT+8 01:10)
7 min read
原文: arXiv
Source: arXiv - 2601.03190v1
概述
本文介绍了 PALU(前缀感知局部化忘记),这是一种从大型语言模型(LLMs)中“忘记”特定敏感信息的新技术,且不会牺牲模型的整体实用性。PALU 将忘记过程聚焦于模型输出中真正关键的部分——即敏感前缀以及一小组高概率的 token,从而显著降低了以往忘记方法中常见的副作用。
Key Contributions
- Prefix‑aware forgetting: 表明仅擦除生成序列中的敏感前缀即可打断与不需要知识的因果关联。
- Localized entropy maximization: 提出仅在前(k)个 logits(最可能的下一个标记候选)上最大化熵,而不是在整个词表上,从而减少不必要的计算。
- Efficient optimization: 通过将更新限制在实际影响敏感输出的子空间,PALU 实现了更快的收敛速度和更低的内存占用。
- Empirical superiority: 表明 PALU 在遗忘效果(秘密被移除的程度)和效用保持(模型保持一般性能的程度)两方面均优于最先进的去学习基线。
方法论
- 识别目标前缀 – 给定一段敏感文本(例如私人用户查询),PALU 提取最小前缀,使得在生成时模型会复现该秘密。
- 局部熵目标 – PALU 并不是对整个词表的概率分布进行平坦化,而是仅对前缀每一步中概率最高的 top‑k 令牌的分布进行平坦化。实现方式是加入一个损失项,使这些 logits 的熵(不确定性)最大化。
- 时间局部化 – 熵最大化仅在产生已识别前缀的步骤中应用,生成过程的其余部分保持不变。
- 参数更新 – 对模型参数进行梯度下降,但梯度被掩码,仅对影响前缀 top‑k logits 的权重进行更新。这种“局部”微调使模型的大部分保持完整。
整体训练循环轻量:对包含秘密的少量示例进行几次前向‑后向传播,然后进行一次短时的微调阶段。
结果与发现
| 指标 | PALU | 先前技术(例如,全词汇熵,数据删除) |
|---|---|---|
| 遗忘成功率(对秘密的 BLEU 下降) | ≈ 92 % | 68 % |
| 通用问答准确率(忘记后) | +3.4 % 超过基线 | –2.1 % |
| 训练时间(每个秘密) | ≈ 0.6× 全词汇方法的时间 | 1× |
| 内存开销 | 极小(不存储全词汇 logits) | 高 |
关键要点
- 仅针对前缀进行处理就已经打破了原本会重现秘密的链路。
- 将前 k 个 logits 拉平能够提供与对整个词表拉平相当的不确定性,但计算成本要低得多。
- 整体来看,PALU 在实现更强遗忘的同时,保留了模型原有能力的更多部分。
实际影响
- 合规就绪的 LLM:公司现在可以通过外科式地删除特定用户数据,而无需重新训练整个模型,从而遵守数据隐私法规(例如 GDPR 的“被遗忘权”)。
- 快速事件响应:如果专有提示泄露,PALU 可以在几分钟内抹除其影响,限制曝光。
- 边缘设备更新:由于 PALU 的微调轻量化,它可以部署在计算资源受限的设备上(例如本地助手),以清除本地存储的敏感短语。
- 模型即服务(MaaS)提供商:服务运营商可以提供“忘记即功能”API,接受密钥并返回修补后的模型快照,从而围绕数据隐私开辟新的商业模式。
限制与未来工作
- 前缀检测依赖性: PALU 假设敏感内容可以被隔离为明确的前缀;模糊或分布式的秘密可能需要更复杂的检测方法。
- Top‑(k) 选择启发式: 目前 (k) 的选择是一个超参数;自适应方法可能进一步减少不必要的展平。
- 大规模模型的可扩展性: 实验在最多 13 B 参数的模型上进行;将该方法扩展到 100 B 规模的 LLM 可能需要额外的工程工作(例如参数高效微调)。
- 更广泛的遗忘标准: 未来的工作可以探索将 PALU 与基于知识图谱的反学习相结合,以处理将秘密嵌入单一前缀之外的多步推理链。
PALU 表明,“遗忘”不必是一次粗糙的、全模型的操作。通过精准定位携带不需要知识的确切文本和概率区域,开发者可以满足隐私需求,同时保持其 LLM 的锐利和高性能。
作者
- Naixin Zhai
- Pengyang Shao
- Binbin Zheng
- Fei Shen
- Long Bai
- Xun Yang
论文信息
- arXiv ID: 2601.03190v1
- Categories: cs.CL
- Published: 2026年1月6日
- PDF: Download PDF