[Paper] 在 Machine Unlearning 中保护未删除的
发布: (2026年2月19日 GMT+8 02:44)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16697v1
概述
机器 unlearning 承诺让您能够从已训练的模型中删除用户的数据,就好像这些数据从未被使用过。Cohen et al. 表明,最常见的 “perfect‑retraining” 形式的 unlearning 可能会无意中泄露关于 剩余(未删除)数据的信息。他们的工作揭示了一类新的重建攻击,并提出了一种更安全的安全性定义,同时仍支持诸如求和和统计学习等实际操作。
关键贡献
- 重构攻击:展示了仅控制少量数据点的对手通过反复向满足完美‑再训练保证的模型发出删除请求,就能恢复几乎整个原始数据集。
- 对现有定义的关键调查:表明当前对机器消除的形式化要么容易受到该攻击,要么限制过严,以至于无法实现基本功能(例如,精确求和聚合)。
- 新的安全定义:提出了“未删除数据保护”概念,明确防止在删除其他数据点时泄露系统中仍保留的数据信息。
- 积极的可行性结果:证明在新定义下仍然可以构建有用的原语,如公告板式数据存储、安全求和服务以及标准统计学习流水线。
方法论
- 威胁模型 – 攻击者可以向训练集插入少量恶意记录,然后对任意记录发起一系列删除请求。
- 攻击构造 – 通过观察每次删除后的模型输出(或公开摘要),攻击者求解方程组,逐步揭示未被触及记录的贡献,最终重建整个数据集。
- 定义的形式化分析 – 作者形式化了若干现有的忘记定义(例如“完美再训练”、基于差分隐私的忘记),并证明每一种要么允许该攻击,要么禁止关键操作。
- 新定义的设计 – 他们定义了一个安全游戏,要求在删除后对手的视图与从未包含被删除点的数据集生成的视图不可区分,同时保持未删除点完全隐藏。
- 构造性证明 – 使用标准密码学工具(秘密共享、同态加密)和算法技巧(增量更新),他们构建了满足新定义的具体机制,适用于常见任务。
结果与发现
- 攻击有效性:对于线性回归、逻辑回归以及简单计数查询等任务,重建攻击只需在 (O(\log n)) 次删除后就能以高概率成功,其中 (n) 为数据集规模。
- 完美再训练的脆弱性:任何在删除后保证与“从头重新训练”得到完全相同模型的算法,都会泄露关于剩余数据的线性约束,攻击者可以利用这些约束求解。
- 在现有定义下的不可能性:论文证明,没有机制能够同时实现完美再训练、支持精确求和以及保护未删除的数据。
- 新定义的可行性:作者展示了原型构造(例如使用加法秘密共享的安全公告板),该构造在仅有适度开销(计算和存储的常数因子增加)的情况下实现了新的安全保证。
实际影响
- 监管合规:构建“被遗忘权”API的公司需要注意,仅仅重新训练或使用现有的消除学习库可能会泄露其他用户的数据。
- ML即服务平台的设计:服务提供商应采用满足未删除数据保护定义的消除学习原语,尤其是在模型通过公共端点公开时。
- 安全数据管道:本文的构造实现了安全聚合(例如遥测求和)和增量学习,避免跨用户泄漏,适用于分析仪表盘和联邦学习环境。
- 工具影响:开源的消除学习框架可能需要集成密码学后端(秘密共享、同态加密)以满足更强的保证,这将影响性能权衡。
限制与未来工作
- 攻击范围:重构攻击已在线性模型和计数查询上演示;将其扩展到深度神经网络仍是一个未解之题。
- 性能开销:虽然所提出的构造在理论上高效,但大规模模型的实际延迟和内存成本尚未进行实证评估。
- 更广泛的威胁模型:本文假设攻击者能够在每次删除后观察模型;未来工作可以探索更弱的观察模型(例如,仅访问最终模型)。
- 与差分隐私的集成:将新的未删除数据保护定义与基于差分隐私的训练相结合,以实现隐私和忘记双重保证,是一个有前景的方向。
作者
- Aloni Cohen
- Refael Kohen
- Kobbi Nissim
- Uri Stemmer
论文信息
- arXiv ID: 2602.16697v1
- 分类: cs.LG, cs.DS
- 出版日期: 2026年2月18日
- PDF: 下载 PDF