[Paper] Clust-PSI-PFL:一种 Population Stability Index 方法用于聚类非IID个性化联邦学习
Source: arXiv - 2512.20363v1
(请提供您希望翻译的正文内容,我将按照要求保留上述来源链接并将正文翻译成简体中文。)
概述
本文介绍了 Clust‑PSI‑PFL,一种新的个性化联邦学习(PFL)框架,通过根据 人口稳定性指数(PSI)相似度对客户端进行聚类,解决了臭名昭著的非 IID 数据问题。通过将数据分布在统计上相似的设备归为一组,该方法实现了更高的全局模型准确率,并显著提升了异构客户端之间的公平性。
关键贡献
- 加权 PSI 指标 (WPSI⁽ᴸ⁾):一种新颖、轻量的统计量,用于量化客户端本地标签分布与全局总体之间的分布漂移,性能优于经典散度(Hellinger、JS、Earth Mover’s)。
- 基于 PSI 的聚类流水线:在 WPSI 派生的特征向量上使用 K‑means++,并通过轮廓系数分析自动选择最佳聚类数目。
- 个性化联邦学习架构:每个聚类训练自己的本地模型,同时仍然贡献到共享的全局模型,实现个性化与协作的融合。
- 全面的实证评估:在六个多样化数据集(表格、图像、文本)上进行实验,采用两种非 IID 生成方案(Dirichlet α 和基于相似度的 S)以及不同的客户端数量。
- 性能提升:相较于领先基线(FedAvg、FedProx、PerFedAvg 等),全局准确率提升最高 18 %,客户端公平性提升 37 %。
方法论
-
数据分布剖析 – 对每个客户端 i,计算标签直方图 pᵢ 并使用加权 PSI 公式与全局标签直方图 pᴳ 进行比较:
[ \text{WPSI}^L_i = \sum_{c=1}^{C} w_c \cdot \big| \log\frac{p_i(c)}{p_G(c)} \big| ]
其中 w_c 为类别特定的重要性权重(例如,频率的倒数)。
-
特征构造 – 将每类 PSI 值堆叠成向量 ψᵢ ∈ ℝᶜ,捕获细粒度的分布差异。
-
聚类 – 对集合 {ψᵢ} 采用 K‑means++ 进行聚类,得到 K 个簇。对 K = 2 … K_max 计算 silhouette 分数;选择平均 silhouette 最高的 K,自动确定且保持开销适中。
-
训练循环 –
- 全局轮:所有客户端在全局模型上执行标准的 FedAvg 步骤。
- 簇内本地轮:在每个簇内部,客户端进一步在本地数据上微调全局模型,生成簇特定模型。
- 个性化:每个客户端最终采用簇模型(或全局模型与簇模型的加权混合)进行推理。
-
评估指标 – 全局测试准确率、每客户端准确率分布(公平性)以及通信成本。
该流水线刻意保持简洁:PSI 计算每个客户端的复杂度为 O(C),聚类复杂度为 O(N·C·K)(N 为客户端数),训练步骤复用已有的联邦学习基础设施。
结果与发现
| 数据集 / 模态 | 非‑IID 设置 | 基线 (FedAvg) | Clust‑PSI‑PFL | 准确率 Δ | 公平性 Δ |
|---|---|---|---|---|---|
| Adult (表格) | Dirichlet α=0.1 | 71.2 % | 84.5 % | +13.3 % | +31 % |
| CIFAR‑10 (图像) | Similarity S=0.3 | 62.8 % | 78.1 % | +15.3 % | +38 % |
| AG News (文本) | Dirichlet α=0.05 | 68.4 % | 82.9 % | +14.5 % | +35 % |
- 聚类数量:在所有实验中,基于轮廓系数的选择器选取的 K 在 2 到 4 之间,验证了少数同质组即可满足需求。
- 通信开销:加入聚类步骤使总传输字节数增加不到 2 %,因为模型更新仍然复用;唯一的额外成本是一次性交换 PSI 向量(每个客户端仅 O(C),体积极小)。
- 鲁棒性:当标签偏斜极端(α ≤ 0.01)时,Clust‑PSI‑PFL 仍保持 > 80 % 的准确率,而 FedAvg 则跌破 60 %。
总体而言,加权 PSI 对细微分布漂移的敏感度高于 Hellinger 或 Jensen‑Shannon 距离,从而形成了更具意义的聚类。
Practical Implications
- Edge‑AI deployments – 移动或物联网设备群通常表现出强标签偏斜(例如,设备上使用地区特定词汇的语言模型)。Clust‑PSI‑PFL 可以自动将使用模式相似的设备分组,提供对每个子群体都表现良好的模型,无需人工标注。
- Reduced fairness complaints – 通过提升最差客户端的性能,服务提供商可以避免“冷启动”或“尾部客户端”问题,从而无需对每个设备进行昂贵的微调。
- Lightweight integration – PSI 计算和聚类可以作为预处理步骤加入现有的联邦学习流水线(FedAvg、FedProx 等),几乎不需要代码改动,也不会增加额外的隐私风险(PSI 仅来源于标签计数)。
- Regulatory compliance – 因为原始数据永不离开设备,仅共享聚合的标签直方图,该方法符合 GDPR 风格的数据最小化要求。
限制与未来工作
- 仅标签关注:PSI 仅捕获标签分布漂移;特征空间异质性(例如协变量偏移)未直接处理。
- 静态聚类:当前方法在每次训练运行时只确定一次聚类。随着客户端群体的演变进行动态重新聚类可能进一步提升性能。
- 可扩展至数百万客户端:虽然 PSI 向量很小,但 K‑means++ 步骤可能成为瓶颈;值得探索层次式或流式聚类的替代方案。
- 扩展到异构模型架构:本文假设所有聚类使用相同模型;未来工作可以研究每个聚类的架构搜索。
Clust‑PSI‑PFL 证明,一个简单的统计指纹——人口稳定指数(Population Stability Index)——可以成为在真实的非 IID 环境中实现稳健、公平、高效个性化联邦学习的关键。
作者
- Daniel M. Jimenez-Gutierrez
- Mehrdad Hassanzadeh
- Aris Anagnostopoulos
- Ioannis Chatzigiannakis
- Andrea Vitaletti
论文信息
- arXiv ID: 2512.20363v1
- 分类: cs.LG, cs.AI, cs.DC, stat.AP, stat.ML
- 发布日期: 2025年12月23日
- PDF: 下载 PDF