[Paper] MPU:面向安全且隐私保护的大型语言模型的知识遗忘
发布: (2026年2月27日 GMT+8 16:39)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.23798v1
概览
本文介绍了 MPU(Multiple Perturbed Copies Unlearning,多扰动副本消除),一个框架,使大型语言模型(LLM)能够“忘记”特定数据,而无需暴露模型的内部权重或客户端的私人忘记列表。通过在服务器端巧妙地扰动并重新参数化模型的副本,MPU 实现了隐私保护的消除,且可与任何现有的消除算法配合使用。
关键贡献
- 双重非披露解决方案: 确保服务器的精确参数和客户端的忘记集合永不共享。
- 算法无关设计: 适用于多种忘记方法(论文中评估了七种)。
- 多重扰动副本: 生成多个随机化模型实例,以掩盖原始权重,同时仍支持有效的本地忘记。
- 谐波去噪聚合: 一种新颖的后处理步骤,逆转扰动并合并更新,以恢复接近无噪声基线的性能。
- 实证验证: 在 10 % 噪声下平均降级低于 1 %,且在仅 1 % 噪声时甚至偶尔超过基线。
Source: …
方法论
-
预处理(服务器端)
- 服务器创建目标大语言模型的 k 份副本。
- 每份副本都被 扰动(在权重上加入随机噪声)并 重新参数化(例如,应用随机线性变换)。
- 扰动后的副本发送给客户端;原始模型始终留在服务器上。
-
本地忘记(客户端)
- 客户端在每份副本上运行其选择的忘记算法,仅使用其私有的忘记集合。
- 由于每份副本略有不同,客户端永远看不到真实的底层参数。
-
后处理(服务器端)
- 服务器接收更新后的副本,逆转重新参数化,将它们映射回原始权重空间。
- 谐波去噪步骤聚合多个更新,有效抵消之前引入的随机噪声。
整个流程是 “即插即用”:可以替换任意忘记算法,而无需更改 MPU 的核心组件。
结果与发现
- 性能等价: 在七种去学习算法中,MPU 的去学习质量在大多数情况下与无噪声基线相匹配。
- 对噪声的鲁棒性: 注入 10 % 噪声时,平均性能损失保持在 1 % 以下;仅 1 % 噪声时,某些算法甚至 优于 基线。
- 可扩展性: 在规模至 GPT‑2‑medium 的模型上进行实验表明,生成和聚合多个副本的开销适中(≈2–3× 训练时间,仍然适用于生产流水线)。
- 隐私保证: 形式化分析确认服务器无法重建客户端的忘记集合,且客户端无法推断出原始权重的精确值,误差仅在可忽略的统计界限内。
实际影响
- 监管合规: 公司可以在不泄露专有模型权重或用户数据的情况下,满足针对 LLM‑驱动服务的“被遗忘权”请求。
- 多租户 SaaS: 云服务提供商可以提供忘记即服务,让每个租户在扰动后的副本上本地执行忘记操作,同时保持核心模型的机密性。
- 安全模型更新: MPU 的扰动‑聚合模式可重新用于安全的联邦微调,参与方需要同时隐藏其数据和基础模型。
- 工具集成: 由于 MPU 与算法无关,现有的忘记库(例如 Forget‑BERT、SISA)可以通过最少的代码修改进行封装,加速采纳。
限制与未来工作
- 计算开销: 维护多个扰动副本会成倍增加内存和计算需求;如何在副本数量与隐私/效用之间进行权衡仍是未解之题。
- 噪声校准: 本研究使用固定噪声水平;自适应噪声方案有望在保持性能的同时进一步收紧隐私保障。
- 更广泛的模型族: 实验聚焦于仅解码器和编码器‑解码器结构的 Transformer;将 MPU 扩展到检索增强或多模态的大语言模型值得进一步研究。
- 正式的隐私证明: 虽然已缓解了实证攻击,但对扰动‑聚合流水线进行严格的差分隐私分析仍是未来的研究方向。
MPU 弥合了隐私法与实际 AI 部署之间的鸿沟,为开发者提供了一条负责任地让大语言模型“忘记”的务实路径。
作者
- Tiantong Wang
- Xinyu Yan
- Tiantong Wu
- Yurong Hao
- Yong Jiang
- Fei Huang
- Wei Yang Bryan Lim
论文信息
- arXiv ID: 2602.23798v1
- 分类: cs.LG, cs.AI, cs.CR, cs.DC
- 发布时间: 2026年2月27日
- PDF: 下载 PDF