[Paper] MPU：面向安全且隐私保护的大型语言模型的知识遗忘

发布: 3天前 (2026年2月27日 GMT+8 16:39)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23798v1

概览

本文介绍了 MPU（Multiple Perturbed Copies Unlearning，多扰动副本消除），一个框架，使大型语言模型（LLM）能够“忘记”特定数据，而无需暴露模型的内部权重或客户端的私人忘记列表。通过在服务器端巧妙地扰动并重新参数化模型的副本，MPU 实现了隐私保护的消除，且可与任何现有的消除算法配合使用。

关键贡献

双重非披露解决方案： 确保服务器的精确参数和客户端的忘记集合永不共享。
算法无关设计： 适用于多种忘记方法（论文中评估了七种）。
多重扰动副本： 生成多个随机化模型实例，以掩盖原始权重，同时仍支持有效的本地忘记。
谐波去噪聚合： 一种新颖的后处理步骤，逆转扰动并合并更新，以恢复接近无噪声基线的性能。
实证验证： 在 10 % 噪声下平均降级低于 1 %，且在仅 1 % 噪声时甚至偶尔超过基线。

Source: …

方法论

预处理（服务器端）
- 服务器创建目标大语言模型的 k 份副本。
- 每份副本都被扰动（在权重上加入随机噪声）并 重新参数化（例如，应用随机线性变换）。
- 扰动后的副本发送给客户端；原始模型始终留在服务器上。
本地忘记（客户端）
- 客户端在每份副本上运行其选择的忘记算法，仅使用其私有的忘记集合。
- 由于每份副本略有不同，客户端永远看不到真实的底层参数。
后处理（服务器端）
- 服务器接收更新后的副本，逆转重新参数化，将它们映射回原始权重空间。
- 谐波去噪步骤聚合多个更新，有效抵消之前引入的随机噪声。

整个流程是 “即插即用”：可以替换任意忘记算法，而无需更改 MPU 的核心组件。

结果与发现

性能等价: 在七种去学习算法中，MPU 的去学习质量在大多数情况下与无噪声基线相匹配。
对噪声的鲁棒性: 注入 10 % 噪声时，平均性能损失保持在 1 % 以下；仅 1 % 噪声时，某些算法甚至优于基线。
可扩展性: 在规模至 GPT‑2‑medium 的模型上进行实验表明，生成和聚合多个副本的开销适中（≈2–3× 训练时间，仍然适用于生产流水线）。
隐私保证: 形式化分析确认服务器无法重建客户端的忘记集合，且客户端无法推断出原始权重的精确值，误差仅在可忽略的统计界限内。

实际影响

监管合规： 公司可以在不泄露专有模型权重或用户数据的情况下，满足针对 LLM‑驱动服务的“被遗忘权”请求。
多租户 SaaS： 云服务提供商可以提供忘记即服务，让每个租户在扰动后的副本上本地执行忘记操作，同时保持核心模型的机密性。
安全模型更新： MPU 的扰动‑聚合模式可重新用于安全的联邦微调，参与方需要同时隐藏其数据和基础模型。
工具集成： 由于 MPU 与算法无关，现有的忘记库（例如 Forget‑BERT、SISA）可以通过最少的代码修改进行封装，加速采纳。

限制与未来工作

计算开销: 维护多个扰动副本会成倍增加内存和计算需求；如何在副本数量与隐私/效用之间进行权衡仍是未解之题。
噪声校准: 本研究使用固定噪声水平；自适应噪声方案有望在保持性能的同时进一步收紧隐私保障。
更广泛的模型族: 实验聚焦于仅解码器和编码器‑解码器结构的 Transformer；将 MPU 扩展到检索增强或多模态的大语言模型值得进一步研究。
正式的隐私证明: 虽然已缓解了实证攻击，但对扰动‑聚合流水线进行严格的差分隐私分析仍是未来的研究方向。

MPU 弥合了隐私法与实际 AI 部署之间的鸿沟，为开发者提供了一条负责任地让大语言模型“忘记”的务实路径。

作者

Tiantong Wang
Xinyu Yan
Tiantong Wu
Yurong Hao
Yong Jiang
Fei Huang
Wei Yang Bryan Lim

论文信息

arXiv ID: 2602.23798v1
分类: cs.LG, cs.AI, cs.CR, cs.DC
发布时间: 2026年2月27日
PDF: 下载 PDF

[Paper] MPU：面向安全且隐私保护的大型语言模型的知识遗忘

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[论文] 记忆缓存：RNNs with 增长记忆