[Paper] FairGFL:隐私保护的公平感知联邦学习与重叠子图

发布: (2025年12月29日 GMT+8 14:31)
7 min read
原文: arXiv

Source: arXiv - 2512.23235v1

概述

图联邦学习(GFL)允许多个参与方在不暴露原始图数据的情况下训练共享的图神经网络。虽然重叠子图——即在多个客户端本地视图中出现的节点和边——可以帮助缓解数据异质性,但作者指出 不平衡的重叠会导致公平性问题:共享节点较少的客户端最终会得到较差的模型性能。本文提出了 FairGFL,一种兼顾隐私保护和公平性的算法,在保持整体预测质量的同时恢复平衡。

关键贡献

  • 揭示不公平性,源于联邦客户端之间不均匀的重叠子图,提供了实证证据和理论分析。
  • 加权聚合方案,使用隐私保护的每个客户端重叠比例估计,在模型合并时给予处于不利地位的客户端更大的影响力。
  • 公平性‑效用正则化项,集成到联邦损失中,显式地在整体准确率与每个客户端的公平性之间进行权衡。
  • 全面评估,在四个真实世界图基准上进行,展示了相较于四个强基线的更高准确率和公平性。
  • 可解释性:加权机制透明,系统运营者可以了解重叠比例如何影响最终模型。

方法论

  1. 问题设定

    • 每个客户端持有一个更大全局图的子图。子图可能会重叠(共享节点/边)。
    • 客户端之间的重叠比例差异很大,导致数据质量异构
  2. 公平性度量

    • 作者采用客户端层面的性能差异度量(例如,每个客户端准确率的方差)来量化不公平性。
  3. 隐私保护的重叠估计

    • 客户端在本地计算其与全局图的重叠规模。
    • 通过安全聚合(例如,加法秘密共享),服务器获得无原始数据的每个客户端重叠比例估计。
  4. 加权模型聚合

    • 与经典的 FedAvg(等权重)不同,FairGFL 为重叠比例较小的客户端分配更高的权重
    • 客户端 (i) 的权重 (w_i) 由其估计重叠的单调函数决定,且所有权重之和为 1。
  5. 公平性‑效用正则项

    • 全局损失变为:
      [ \mathcal{L}_{\text{global}} = \sum_i w_i \mathcal{L}_i + \lambda \cdot \text{FairnessPenalty}({ \mathcal{L}_i }) ]
    • 惩罚项对客户端损失之间的较大偏差进行惩罚;(\lambda) 控制公平性‑效用的权衡。
  6. 训练循环

    • 每轮:本地 GNN 训练 → 安全重叠上报 → 带正则项的加权聚合 → 更新全局模型并广播。

整个流程在遵守联邦学习隐私保证(原始图数据不离开客户端)的前提下,仅为重叠统计增加了适度的通信开销。

结果与发现

数据集 (4)基线 (FedAvg) 准确率FairGFL 准确率基线公平性 (方差)FairGFL 公平性
Cora‑Fed81.2 %84.5 %0.0420.018
Pubmed‑Fed78.9 %81.7 %0.0570.021
Reddit‑Fed73.4 %76.1 %0.0690.025
OGB‑MolPCBA71.0 %73.8 %0.0830.030
  • 准确率提升:FairGFL 相较于普通 FedAvg 以及其他公平性‑感知基线,始终提升全局测试准确率 2–4 %。
  • 公平性提升:各客户端性能方差下降约 50–70 %,表明模型更加公平。
  • 消融实验 证实,加权聚合和正则项两者缺一不可;去除任一部分都会导致公平性或效用下降。
  • 可扩展性:通信开销随客户端数量线性增长;安全重叠报告的额外成本可以忽略不计 (< 0.5 % 的总流量)。

Practical Implications

  • Enterprise Graph Analytics: Companies that jointly train fraud‑detection or recommendation GNNs across siloed data (e.g., banks, e‑commerce platforms) can adopt FairGFL to ensure smaller partners aren’t left with sub‑par models.
  • Regulatory Compliance: Fairness‑aware federated learning aligns with emerging AI governance rules that demand equitable outcomes across data contributors.
  • Edge‑AI & IoT Networks: In sensor networks where some nodes have limited connectivity (hence fewer overlapping observations), FairGFL’s weighting can compensate without exposing raw sensor readings.
  • Open‑Source Tooling: The algorithm can be integrated into existing federated learning frameworks (e.g., Flower, FedML) with minimal changes—just plug in the overlap‑estimation step and replace FedAvg with the weighted aggregator.

Overall, FairGFL provides a ready‑to‑use recipe for developers who need to balance model performance with fairness across heterogeneous graph data owners.

限制与未来工作

  • 假设诚实但好奇的服务器:隐私保证依赖于安全聚合;恶意服务器仍可能通过重复的权重更新推断出重叠模式。
  • 静态重叠比例:当前方法将重叠比例视为每轮固定。在边缘出现/消失的动态图中,估计可能会滞后。
  • 可扩展到数千个客户端:实验仅限于几十个客户端;需要进一步工作来验证在大规模下的性能和通信效率。
  • 扩展到异构模型架构:FairGFL 假设所有客户端使用相同的 GNN 架构。未来研究可以探讨在客户端使用不同模型容量时的公平性。

作者建议将 差分隐私的重叠估计自适应加权方案(能够响应图拓扑的时间变化)作为有前景的方向进行探索。

作者

  • Zihao Zhou
  • Shusen Yang
  • Fangyuan Zhao
  • Xuebin Ren

论文信息

  • arXiv ID: 2512.23235v1
  • 分类: cs.LG, cs.DC
  • 发表时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »