[Paper] 面向可解释的联邦学习：理解差分隐私的影响

发布: 2天前 (2026年2月11日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.10100v1

概述

本文介绍了 FEXT‑DP，一个基于决策树模型的联邦学习框架，加入了差分隐私保证，并努力保持生成模型的可解释性。通过将联邦学习、差分隐私和可解释人工智能相结合，作者旨在展示即使在隐私保护的分布式训练下，仍然可以产生开发者能够理解和信任的模型。

模型选择 – 决策树：树本身具有透明性（分裂、特征重要性、路径解释）。作者使用 CART‑style 二叉树作为基学习器。
联邦训练循环
- 每个客户端在本地使用其私有数据构建部分树。
- 客户端计算分裂统计量（例如 Gini impurity 减少），并将 带噪声 的聚合结果发送给中心服务器。
- 服务器选择全局最佳分裂，更新共享的树结构，并将其广播回去。
- 该过程重复，直至满足停止准则（最大深度或收敛）。
差分隐私层
- 在传输前向分裂统计量添加 Laplace 或 Gaussian 噪声（取决于隐私预算 ε）。
- 隐私预算在训练轮次之间使用标准的组合定理进行分配。
可解释性评估
- 将特征重要性排名在非 DP 基线模型和 DP 保护模型之间进行比较。
- 测量树深度、叶子节点数以及路径长度分布，以作为模型复杂度的代理指标。
基准测试
- 实验在合成回归数据以及两个真实数据集（UCI Housing、医疗传感器数据集）上进行。
- 基线包括带 DP 的联邦神经网络和集中式（非联邦）决策树模型。

指标	集中式树	联邦树（无DP）	FEXT‑DP (ε=1.0)
收敛轮数	–（单节点）	12	8
测试均方误差 (MSE)	0.84	0.88	0.91
平均树深度	7.2	7.0	6.5
特征重要性稳定性（Spearman ρ）	1.00	0.96	0.84

更快的收敛：加入 DP 噪声实际上会平滑分裂统计量，使服务器能够更早地选择更具决定性的分裂，从而减少通信轮数。
轻微的 MSE 增加：隐私噪声会带来适度的误差惩罚，但仍与非 DP 联邦基线保持竞争力。
可解释性影响：DP 会降低最终树的深度（使其更简洁），同时扰动特征重要性排序，降低其稳定性。作者量化了这一权衡，并建议在多数实际场景下 ε ≥ 1.0 为一个较好的折中点。

Edge‑Device Deployments: 开发者现在可以在智能手机、物联网传感器或医疗设备上训练轻量、可解释的模型，而无需将原始数据移出设备。
Regulatory Compliance: DP 保证有助于满足 GDPR、HIPAA 或 CCPA 的要求，同时基于树的解释满足新兴的“解释权”法规。
Faster Federated Pipelines: 更少的通信轮次意味着更低的带宽成本和更少的电池消耗——这对受限网络至关重要。
Debugging & Auditing: 特征重要性向量和决策路径可在训练后检查，能够进行模型失效的根因分析，这在联邦深度网络中很少实现。
Integration Path: 由于原型基于标准 FL API，团队只需将神经网络客户端替换为 FEXT‑DP 客户端，代码改动最小，即可“免费”获得可解释性。

未来工作 将通过以下方式弥补这些不足：(1) 在各轮之间自适应噪声分配，(2) 针对高维工作负载的层次化树集成，(3) 结合防御机制同时抵御投毒和隐私攻击。

结论：FEXT‑DP 证明了无需在隐私、性能和可解释性之间做出取舍。只要使用适度的隐私预算，开发者就能在分布式数据源上训练快速、准确且可解释的模型，为受监管的边缘环境中的可信 AI 打开大门。