[论文] 通过正则化实现私有ML的高效公开验证

发布: 2个月前 (2025年12月4日 GMT+8 01:46)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.04008v1

概述

本文解决了差分隐私（DP）机器学习中的一个实际缺口：虽然 DP 训练可以保护单个数据点，但目前没有廉价的方法让数据所有者或公众验证已发布模型确实满足其声称的 DP 保证。作者提出了首个 DP‑随机凸优化（DP‑SCO）算法，其隐私保证可以 通过远少于训练模型所需的计算量来检查，同时仍实现了接近最优的隐私‑效用权衡。

关键贡献

验证高效的 DP 算法：提出一种 DP‑SCO 方法，其 DP 保证可以在仅占训练成本一小部分的情况下进行审计。
紧致的隐私‑效用权衡：通过私有化最小化一系列 正则化 目标，匹配已知的 DP‑SCO 最优界限。
标准 DP 组合：仅依赖经典的 DP 组合定理，避免了妨碍验证的复杂记账技巧。
可扩展的验证：展示验证时间相对于训练时间呈亚线性增长，使得在大规模数据集上进行公开审计成为可能。
理论保证：提供严格的证明，表明验证过程产生的隐私参数与训练算法相同。

方法论

正则化目标序列
- 作者将原始凸损失重新表述为一系列正则化损失（加入精心选择的惩罚项）。
- 每个正则化问题使用标准的 DP 优化器（例如 DP‑SGD）在每一步使用适度的隐私预算来求解。
通过标准组合进行隐私会计
- 他们不使用复杂的隐私会计器，而是对正则化问题序列应用基本的 DP 组合界限。
- 这产生了一个干净的、可加的隐私损失，易于计算和验证。
验证过程
- 训练结束后，验证者只需使用已发布的随机种子重新运行正则化优化（或检查已发布的噪声统计）。
- 由于每个子问题规模更小且组合是可加的，总体验证成本相较于从头重新训练完整模型大幅降低。
理论分析
- 论文证明正则化不会使效用下降超过最优 DP‑SCO 下界。
- 同时表明验证算法能够恢复训练期间使用的精确隐私参数。

结果与发现

指标	传统 DP‑SCO（基线）	提出的正则化 DP‑SCO
训练计算	(O(T)) (full epochs)	与基线相同的阶
验证计算	≈(O(T)) (re‑train)	≈(O(\sqrt{T})) – 显著降低
隐私‑效用 (ε,δ)	接近最优（ε≈1–2，针对典型设置）	相同 ε,δ（无损失）
经验误差	在已知的最优界限内	在最优界限的 1‑2 % 范围内

在标准凸任务（逻辑回归、SVM）上的实验表明，效用基本保持不变，而验证时间在拥有数百万样本的数据集上下降了一个数量级。

实际影响

公共审计：监管机构、数据提供方或用户现在可以独立验证DP 声明，而无需原始训练基础设施。
合规流水线：企业可以将低成本的验证步骤嵌入 CI/CD 流程，确保每个发布的模型在部署前通过 DP 审计。
成本节约：对于大规模训练（例如推荐系统），验证可以在普通云实例上运行，降低运营开支。
数据共享平台的信任：托管第三方模型的平台（如 Model Zoos）可以展示可验证的 DP 证书，提升用户信心。
工具链简化：由于该方法使用标准的 DP 组合，现有的 DP 库（TensorFlow Privacy、Opacus）可以通过轻量级验证模块进行扩展。

限制与未来工作

仅限凸函数范围：该技术已在随机凸优化中得到证明；将其扩展到深度非凸模型仍是一个未解决的挑战。
正则化开销：虽然验证成本低廉，但训练循环现在需要求解多个正则化子问题，这可能会在实际运行时间上带来适度的额外开销。
诚实随机性披露的假设：验证依赖于获取随机种子或噪声参数；恶意提供者可能会拒绝提供这些信息。
作者提出的未来方向包括：将基于正则化的验证方法适配到神经网络的 DP‑SGD，探索能够保持验证效率的更紧致的组合方法，以及构建能够无缝集成到现有机器学习流水线的开源工具。

作者

Zoë Ruha Bell
Anvith Thudi
Olive Franzese-McLaughlin
Nicolas Papernot
Shafi Goldwasser

论文信息

arXiv ID: 2512.04008v1
分类: cs.LG, cs.CR
出版日期: 2025年12月3日
PDF: Download PDF

[论文] 通过正则化实现私有ML的高效公开验证

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] 训练时动作条件化实现高效实时分块

[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强