[Paper] 关于使用图模型实现个体公平和群体公平

发布: (2026年1月14日 GMT+8 02:17)
7 min read
原文: arXiv

Source: arXiv - 2601.08784v1

概述

本文提出了一种新颖的基于图的框架,利用 Sheaf Diffusion 来在机器学习模型中同时实现 个体群体 公平性。通过将数据投射到数学上“无偏差”的空间,作者获得了在可证明公平的同时仍具竞争力的预测性能的分类器。

关键贡献

  • 统一公平模型: 一种单一的图论构造,同时处理个人公平(相似的个体获得相似的结果)和群体公平(受保护群体之间的统计平等)。
  • 层流扩散形式化: 利用动力系统和代数拓扑(同调)工具,定义一种从特征空间中消除偏差的扩散过程。
  • 闭式 SHAP 解释: 为生成的模型推导出精确的 Shapley‑Additive 解释,为开发者提供对特征重要性的透明洞察。
  • 灵活的网络拓扑: 提供一套对应不同公平度量的图结构库,使从业者能够选择符合其政策目标的拓扑。
  • 实证验证: 在合成模拟和标准公平基准(如 Adult、COMPAS)上展示该方法,显示在帕累托前沿上实现了有利的准确性‑公平性权衡。

方法论

  1. Data → Graph Construction

    • 每个数据点成为一个节点。
    • 边缘编码相似性(用于个体公平)或共享受保护属性(用于群体公平)。
    • 边权由遵循所选相似度度量的核函数导出。
  2. Sheaf Diffusion Layer

    • Sheaf 为每个节点附加一个局部线性空间,捕获该实例的“公平表示”。
    • 通过反复应用遵循 sheaf 结构的图拉普拉斯算子进行扩散,有效平滑偏差,同时保留关键的预测信号。
  3. Projection to Bias‑Free Space

    • 扩散后,将节点特征投影到与已识别偏差方向(例如与受保护属性相关的方向)正交的子空间。
    • 该投影产生 公平嵌入,可供任意下游分类器(逻辑回归、神经网络等)使用。
  4. Interpretability via SHAP

    • 由于扩散和投影都是线性操作,作者推导出 SHAP 值的闭式表达式,能够在无需 Monte‑Carlo 采样的情况下给出精确的特征贡献。
  5. Training & Hyper‑parameter Tuning

    • 唯一可学习的参数是分类器权重;图拓扑和扩散步数被视为超参数。
    • 在扩散深度、边权带宽和偏差方向选择上进行网格搜索,以获得准确率与公平性之间的帕累托前沿。

结果与发现

数据集基准准确率公平性指标 (DP)提议方法准确率公平性改进
Adult84.2 %0.22(差异大)83.7 %↓ 至 0.07(≈ 68 % 减少)
COMPAS71.5 %0.1870.9 %↓ 至 0.05
Synthetic(受控偏差)90 %0.3089 %↓ 至 0.02
  • Pareto 分析 表明,适度增加扩散深度(2–4 步)即可在 < 1 % 的准确率损失下实现显著的公平性提升。
  • 超参数敏感性:该方法对边权带宽具有鲁棒性,只有在极端取值时性能才会下降。
  • 可解释性:SHAP 图在合成实验中与真实特征重要性相匹配,验证了闭式推导的正确性。

实际意义

  • Plug‑and‑play fairness layer: 开发者可以在任何现有模型之前插入 Sheaf Diffusion 模块,将标准流水线转换为具备公平性的系统,而无需重新设计分类器。
  • Policy‑driven graph design: 组织可以将法律或伦理约束直接编码到图的拓扑结构中(例如,对贷款等高风险领域实施更严格的相似性约束)。
  • Transparent audits: 精确的 SHAP 值使审计员能够将决策追溯到原始特征,满足监管机构对可解释性的要求。
  • Scalable to large datasets: 扩散步骤是稀疏矩阵乘法;借助现代 GPU/CPU 库,它可以扩展到数百万节点,使该方法在生产级数据流水线中可行。
  • Multi‑objective optimization: 通过展示准确率–公平性的权衡曲线,产品团队可以选择符合业务目标和合规要求的运行点。

限制与未来工作

  • 图构建成本: 为非常高维的数据构建相似性图可能代价高昂;论文依赖近似最近邻方法,这可能引入噪声。
  • 静态偏差方向: 偏差消除投影假设线性偏差子空间;非线性偏差模式可能逃脱检测。
  • 有限的公平性度量: 虽然框架支持几种常见度量,但将其扩展到因果公平概念(例如反事实公平)仍是一个未解决的挑战。
  • 真实场景部署研究: 作者在基准数据集上进行评估;未来工作应在实际生产环境中测试该方法(例如信用评分 API),以评估延迟和集成开销。

总体而言,本文提供了一条在数学上优雅且在实践中可实现的路径,将公平性嵌入机器学习系统,为开发者提供了一种满足性能和伦理标准的新工具。

作者

  • Arturo Pérez-Peralta
  • Sandra Benítez-Peña
  • Rosa E. Lillo

论文信息

  • arXiv ID: 2601.08784v1
  • 分类: stat.ML, cs.CY, cs.LG
  • 出版日期: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »