[论文] 通过正则化实现私有ML的高效公开验证
发布: (2025年12月4日 GMT+8 01:46)
6 min read
原文: arXiv
Source: arXiv - 2512.04008v1
概述
本文解决了差分隐私(DP)机器学习中的一个实际缺口:虽然 DP 训练可以保护单个数据点,但目前没有廉价的方法让数据所有者或公众 验证 已发布模型确实满足其声称的 DP 保证。作者提出了首个 DP‑随机凸优化(DP‑SCO)算法,其隐私保证可以 通过远少于训练模型所需的计算量来检查,同时仍实现了接近最优的隐私‑效用权衡。
关键贡献
- 验证高效的 DP 算法:提出一种 DP‑SCO 方法,其 DP 保证可以在仅占训练成本一小部分的情况下进行审计。
- 紧致的隐私‑效用权衡:通过私有化最小化一系列 正则化 目标,匹配已知的 DP‑SCO 最优界限。
- 标准 DP 组合:仅依赖经典的 DP 组合定理,避免了妨碍验证的复杂记账技巧。
- 可扩展的验证:展示验证时间相对于训练时间呈亚线性增长,使得在大规模数据集上进行公开审计成为可能。
- 理论保证:提供严格的证明,表明验证过程产生的隐私参数与训练算法相同。
方法论
-
正则化目标序列
- 作者将原始凸损失重新表述为一系列正则化损失(加入精心选择的惩罚项)。
- 每个正则化问题使用标准的 DP 优化器(例如 DP‑SGD)在每一步使用适度的隐私预算来求解。
-
通过标准组合进行隐私会计
- 他们不使用复杂的隐私会计器,而是对正则化问题序列应用基本的 DP 组合界限。
- 这产生了一个干净的、可加的隐私损失,易于计算和验证。
-
验证过程
- 训练结束后,验证者只需使用已发布的随机种子重新运行正则化优化(或检查已发布的噪声统计)。
- 由于每个子问题规模更小且组合是可加的,总体验证成本相较于从头重新训练完整模型大幅降低。
-
理论分析
- 论文证明正则化不会使效用下降超过最优 DP‑SCO 下界。
- 同时表明验证算法能够恢复训练期间使用的精确隐私参数。
结果与发现
| 指标 | 传统 DP‑SCO(基线) | 提出的正则化 DP‑SCO |
|---|---|---|
| 训练计算 | (O(T)) (full epochs) | 与基线相同的阶 |
| 验证计算 | ≈(O(T)) (re‑train) | ≈(O(\sqrt{T})) – 显著降低 |
| 隐私‑效用 (ε,δ) | 接近最优(ε≈1–2,针对典型设置) | 相同 ε,δ(无损失) |
| 经验误差 | 在已知的最优界限内 | 在最优界限的 1‑2 % 范围内 |
在标准凸任务(逻辑回归、SVM)上的实验表明,效用基本保持不变,而验证时间在拥有数百万样本的数据集上下降了一个数量级。
实际影响
- 公共审计:监管机构、数据提供方或用户现在可以独立验证DP 声明,而无需原始训练基础设施。
- 合规流水线:企业可以将低成本的验证步骤嵌入 CI/CD 流程,确保每个发布的模型在部署前通过 DP 审计。
- 成本节约:对于大规模训练(例如推荐系统),验证可以在普通云实例上运行,降低运营开支。
- 数据共享平台的信任:托管第三方模型的平台(如 Model Zoos)可以展示可验证的 DP 证书,提升用户信心。
- 工具链简化:由于该方法使用标准的 DP 组合,现有的 DP 库(TensorFlow Privacy、Opacus)可以通过轻量级验证模块进行扩展。
限制与未来工作
- 仅限凸函数范围:该技术已在随机凸优化中得到证明;将其扩展到深度非凸模型仍是一个未解决的挑战。
- 正则化开销:虽然验证成本低廉,但训练循环现在需要求解多个正则化子问题,这可能会在实际运行时间上带来适度的额外开销。
- 诚实随机性披露的假设:验证依赖于获取随机种子或噪声参数;恶意提供者可能会拒绝提供这些信息。
- 作者提出的未来方向包括:将基于正则化的验证方法适配到神经网络的 DP‑SGD,探索能够保持验证效率的更紧致的组合方法,以及构建能够无缝集成到现有机器学习流水线的开源工具。
作者
- Zoë Ruha Bell
- Anvith Thudi
- Olive Franzese-McLaughlin
- Nicolas Papernot
- Shafi Goldwasser
论文信息
- arXiv ID: 2512.04008v1
- 分类: cs.LG, cs.CR
- 出版日期: 2025年12月3日
- PDF: Download PDF