[Paper] 在关键位置最大化局部熵：前缀感知局部化 LLM Unlearning

发布: 1个月前 (2026年1月7日 GMT+8 01:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03190v1

概述

本文介绍了 PALU（前缀感知局部化忘记），这是一种从大型语言模型（LLMs）中“忘记”特定敏感信息的新技术，且不会牺牲模型的整体实用性。PALU 将忘记过程聚焦于模型输出中真正关键的部分——即敏感前缀以及一小组高概率的 token，从而显著降低了以往忘记方法中常见的副作用。

Prefix‑aware forgetting: 表明仅擦除生成序列中的敏感前缀即可打断与不需要知识的因果关联。
Localized entropy maximization: 提出仅在前(k)个 logits（最可能的下一个标记候选）上最大化熵，而不是在整个词表上，从而减少不必要的计算。
Efficient optimization: 通过将更新限制在实际影响敏感输出的子空间，PALU 实现了更快的收敛速度和更低的内存占用。
Empirical superiority: 表明 PALU 在遗忘效果（秘密被移除的程度）和效用保持（模型保持一般性能的程度）两方面均优于最先进的去学习基线。

识别目标前缀 – 给定一段敏感文本（例如私人用户查询），PALU 提取最小前缀，使得在生成时模型会复现该秘密。
局部熵目标 – PALU 并不是对整个词表的概率分布进行平坦化，而是仅对前缀每一步中概率最高的 top‑k 令牌的分布进行平坦化。实现方式是加入一个损失项，使这些 logits 的熵（不确定性）最大化。
时间局部化 – 熵最大化仅在产生已识别前缀的步骤中应用，生成过程的其余部分保持不变。
参数更新 – 对模型参数进行梯度下降，但梯度被掩码，仅对影响前缀 top‑k logits 的权重进行更新。这种“局部”微调使模型的大部分保持完整。

整体训练循环轻量：对包含秘密的少量示例进行几次前向‑后向传播，然后进行一次短时的微调阶段。

关键要点

前缀检测依赖性: PALU 假设敏感内容可以被隔离为明确的前缀；模糊或分布式的秘密可能需要更复杂的检测方法。
Top‑(k) 选择启发式: 目前 (k) 的选择是一个超参数；自适应方法可能进一步减少不必要的展平。
大规模模型的可扩展性: 实验在最多 13 B 参数的模型上进行；将该方法扩展到 100 B 规模的 LLM 可能需要额外的工程工作（例如参数高效微调）。
更广泛的遗忘标准: 未来的工作可以探索将 PALU 与基于知识图谱的反学习相结合，以处理将秘密嵌入单一前缀之外的多步推理链。

PALU 表明，“遗忘”不必是一次粗糙的、全模型的操作。通过精准定位携带不需要知识的确切文本和概率区域，开发者可以满足隐私需求，同时保持其 LLM 的锐利和高性能。