[Paper] DPSR:差分隐私稀疏重建通过多阶段去噪用于推荐系统
发布: (2025年12月22日 GMT+8 08:43)
8 min read
原文: arXiv
Source: arXiv - 2512.18932v1
概述
一篇新论文提出了 DPSR(Differentially Private Sparse Reconstruction,差分隐私稀疏重构),这是一种三阶段去噪流水线,使推荐系统既能保持用户数据的隐私,又能提供更高质量的推荐。通过利用评分矩阵的自然稀疏性、低秩结构和协同模式,DPSR 减少了常见的隐私‑效用折衷,甚至在多个基准上超越了非隐私的基线。
关键贡献
- 三阶段后处理框架,在差分隐私噪声添加之后工作,通过后处理免疫定理保持 DP 保证。
- 信息论噪声校准,在高信息条目(例如热门商品)中注入更少噪声,同时仍然遵守全局隐私预算。
- 协同过滤去噪器,利用物品‑物品相似图来消除大部分注入的噪声。
- 低秩矩阵补全步骤,恢复潜在的用户/物品因子,进一步清除隐私噪声和固有数据噪声。
- 实证提升:在 ε ∈ [0.1, 10] 范围内,相比最佳的拉普拉斯/高斯 DP 基线,RMSE 下降 5.5 %–9.2 %,且改进具有统计显著性(p < 0.05)。
- 意外的正则化效果:在 ε = 1.0 时,DPSR 达到 RMSE (0.9823),优于非私有模型 (1.0983),表明去噪流水线也去除了自然数据噪声。
方法论
- 噪声注入(DP 保证) – 原始评分矩阵会根据选定的隐私预算 ε,加入校准的拉普拉斯或高斯噪声。仅此一步通常会降低推荐质量。
- 阶段 1 – 信息论校准 – 在加入噪声之前,算法会估计每个评分的信息量(例如基于商品受欢迎程度或用户活跃度)。信息量高的条目使用较小的噪声尺度,而信息量低的条目使用完整的预算。此自适应缩放保持整体 ε 预算不变,但将隐私保护集中在最关键的地方。
- 阶段 2 – 协同过滤去噪 – 噪声注入后,构建项目之间的相似度矩阵(例如对噪声向量计算余弦相似度)。对每个评分,计算其邻居噪声值的加权平均,从而有效平滑随机扰动,同时保留真实的协同信号。
- 阶段 3 – 低秩矩阵补全 – 将部分去噪后的矩阵输入标准的低秩分解/补全算法(例如交替最小二乘或核范数最小化)。由于评分数据本质上是低秩的,这一步能够恢复潜在的用户和项目因子,消除残余噪声并填补缺失条目。
- 后处理免疫 – 三个阶段均为纯后处理;它们不直接访问原始数据,因此整个流程在定义上仍然是 ε‑差分隐私 的。
结果与发现
| 隐私预算 (ε) | 基准(非私有)RMSE | 拉普拉斯/高斯 DP RMSE | DPSR RMSE | 相对 DP 的提升 % |
|---|---|---|---|---|
| 0.1 | 1.0983 | 1.2154 | 1.1021 | 9.2 % |
| 0.5 | 1.0983 | 1.0457 | 0.9893 | 5.5 % |
| 1.0 | 1.0983 | 0.9972 | 0.9823 | 1.5 %(并且优于非私有) |
| 5.0 | 1.0983 | 0.9451 | 0.9104 | 3.7 % |
| 10.0 | 1.0983 | 0.9256 | 0.8872 | 4.2 % |
- 所有改进均具有统计显著性(p < 0.05,绝大多数 p < 0.001)。
- 去噪流水线充当 正则化器,不仅去除注入的隐私噪声,还去除真实评分数据中存在的随机噪声。
- 在已知真实值的合成数据集上进行的实验表明,DPSR 在恢复潜在低秩结构方面始终比其他 DP 机制更为准确。
实际影响
- 更好的用户体验:平台现在可以在提供更准确的推荐的同时,仍然保持强大的隐私保障,从而降低因个性化不足导致的用户流失。
- 更易实现监管合规:受 GDPR、CCPA 或即将出台的 AI 隐私法约束的公司可以采用 DPSR,以满足 ε‑DP 要求,同时不牺牲服务质量。
- 即插即用组件:由于 DPSR 是一个后处理层,可以直接嵌入已经使用拉普拉斯或高斯 DP 噪声的现有流水线,无需重新设计整个推荐系统架构。
- 资源高效:这三个阶段依赖于已被广泛研究的算法(相似度计算、协同过滤、低秩矩阵分解),这些算法在许多机器学习库中已得到优化,使得大规模部署成为可能。
- 跨领域应用潜力:任何处理稀疏低秩数据的系统(例如隐式反馈、社交图谱、知识库)都可以受益于相同的 DP 后去噪模式。
限制与未来工作
- 合成聚焦: 当前评估使用合成评分矩阵;仍需在具有复杂偏差模式的真实数据集(例如 MovieLens、Amazon)上进行测试。
- Stage 2 的可扩展性: 在非常大的目录上计算稠密的项目‑项目相似度可能成本高昂;可能需要近似最近邻方法或图采样技术。
- 固定隐私预算: DPSR 假设单一全局 ε。将框架扩展以支持个性化隐私预算(按用户或按项目)是一个未解决的方向。
- 对抗攻击的鲁棒性: 虽然 DP 能防止统计泄漏,但去噪步骤可能无意中放大某些攻击(例如模型反演)。需要进行正式的鲁棒性分析。
- 与深度学习推荐系统的集成: 将 DPSR 适配到神经协同过滤或基于 Transformer 的推荐系统可能带来进一步提升,但需要谨慎处理基于梯度的隐私计量。
底线: DPSR 表明,巧妙的后处理可以将隐私‑效用权衡从硬性限制转变为可调的工程问题,为以隐私为先且不牺牲相关性的推荐系统打开了大门。
作者
- Sarwan Ali
论文信息
- arXiv ID: 2512.18932v1
- 分类: cs.LG, cs.CR
- 出版日期: 2025年12月22日
- PDF: 下载 PDF