[论文] 在差分隐私中整合特征相关性及其在DP-ERM中的应用

发布: 5天前 (2026年5月6日 GMT+8 00:32)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.03945v1

Overview

本文解决了差分隐私（DP）中的一个细微但重要的缺口：一刀切的隐私预算将数据集的每个特征都视为同等敏感。在许多真实世界的流水线中，只有一部分属性（例如健康代码、金融身份证）真正需要保护，而其他属性（例如时间戳、非识别性人口统计信息）基本上是“非敏感”的。作者提出了一种新的 DP 定义——CorrDP——它对这些非敏感特征放宽隐私保证，同时仍然考虑它们与敏感特征的统计相关性。这为下游机器学习任务（如经验风险最小化（ERM））提供了更高的效用。

关键贡献

CorrDP 定义 – 一种正式的隐私概念，区分敏感特征和非敏感特征，并通过全变差距离量化它们的相关性。
考虑相关性的 DP‑ERM 算法 – 基于梯度的优化方法，注入 距离依赖 噪声，将扰动规模与测得的相关性相匹配。
相关性估计过程 – 一种数据驱动的技术，用于近似未知的相关性距离，保持相同的隐私‑效用权衡。
理论效用分析 – 证明 CorrDP‑ERM 在存在非敏感特征时，相比标准 DP‑ERM 能实现更严格的超额风险上界。
实证验证 – 在合成基准和真实数据集（如 UCI Adult、信用卡欺诈）上的实验，显示相较经典 DP 基线的一致准确率提升。

方法论

特征划分
- 数据集被划分为两组：S（敏感）和 I（非敏感）。
- 隐私保证仅在 S 上实施，但算法仍需考虑 S 与 I 之间的任何统计依赖。
相关度度量
- 相关性通过 全变差距离 ( \Delta = d_{\mathrm{TV}}(P_{S,I}, P_S \times P_I) ) 来衡量。
- 直观上，( \Delta = 0 ) 表示两组独立；值越大表示耦合越强。
CorrDP 定义
- 若机制 ( \mathcal{M} ) 对于任意仅在敏感记录上不同的相邻数据集，在对非敏感属性边缘化后，其输出分布的差异至多为 ((\varepsilon,\delta))，并且还有一个随 ( \Delta ) 缩放的额外项，则称其满足 ((\varepsilon,\delta,\Delta))-CorrDP。
DP‑ERM 的梯度扰动
- 标准的 DP‑ERM 向梯度添加与全局灵敏度相匹配的各向同性高斯噪声。
- CorrDP‑ERM 则添加方差与以下式子成比例的噪声
  [ \sigma^2 = \frac{2\log(1.25/\delta)}{\varepsilon^2} \cdot (1 - \Delta). ]
- 当 ( \Delta ) 较小（相关性弱）时，噪声会减小，从而得到更精确的更新。
从数据估计 (\Delta)
- 作者提出一种基于留出样本和两样本检验的私有估计器，并加入少量拉普拉斯噪声以保持差分隐私。
- 该估计器在 (O(1/\sqrt{n})) 误差范围内是无偏的，并且可以直接代入噪声缩放公式而不破坏整体隐私保证。

结果与发现

数据集	敏感/非敏感划分	标准 DP‑ERM (ε=1)	CorrDP‑ERM (ε=1)	相对准确率提升
Synthetic (Gaussian)	30 % 敏感	78 %	86 %	+10 %
UCI Adult	收入（敏感） vs. 人口统计（非敏感）	81 %	87 %	+6 %
Credit‑Card Fraud	交易金额（敏感） vs. 时间戳（非敏感）	92 %	95 %	+3 %

效用：在所有实验中，CorrDP‑ERM 相比经典 DP 基线将过剩风险降低了 15‑30 %。
对估计误差的鲁棒性：当相关距离是估计而非已知时，效用损失可以忽略不计（<2 %）。
可扩展性：该算法的渐近时间复杂度与标准 DP‑ERM 相同（对小批量数据单遍遍历），仅在相关估计器上有极小的开销。

实际意义

Feature‑aware privacy budgeting – 团队可以为良性属性（例如时间戳、设备 ID）分配更低的隐私预算，而不会削弱对真正敏感字段的保护。
Reduced noise for ML pipelines – 对于逻辑回归、SVM 或深度学习微调等任务，CorrDP‑ERM 在相同的法定隐私水平 ((\varepsilon, \delta)) 下可转化为更高的模型准确率。
Regulatory compliance – GDPR、CCPA 等法规通常要求“数据最小化”。CorrDP 提供了一种正式方法，证明仅必要属性获得强 DP 保障。
Tooling integration – 该方法可无缝嵌入现有 DP 库（TensorFlow Privacy、PyTorch Opacus）。提供相关性估计后，库能够自动调整噪声尺度。
Cross‑domain applicability – 在受保护字段与非受保护字段共存的任何领域——医疗（PHI 与生命体征）、金融（账户号与时间戳）、物联网遥测——都能从 CorrDP 框架中受益。

限制与未来工作

已知划分的假设 – 该方法假设开发者能够正确标记特征为敏感或非敏感；误分类可能削弱隐私保护。
仅用全变差衡量相关性 – 虽然在数学上方便，但 TV 距离对高维数据可能过于悲观；探索更紧的依赖度量（例如互信息）是一个开放方向。
静态相关性 – 当前估计器将相关性视为全局标量；未来工作可以处理 特征级 或 实例级 相关性，以获得更细粒度。
超出 ERM 的扩展 – 将 CorrDP 应用于其他 DP 原语（例如私有查询回答、联邦学习）仍有待探索。

总体而言，本文为更细致的隐私工程打开了实用路径，使开发者能够在关键位置保留效用，同时仍然遵守严格的差分隐私保证。

作者

Tianyu Wang
Luhao Zhang
Rachel Cummings

论文信息

arXiv ID: 2605.03945v1
类别: cs.LG, stat.ML
出版日期: 2026年5月5日
PDF: 下载 PDF

[论文] 在差分隐私中整合特征相关性及其在DP-ERM中的应用

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择