[Paper] 进化的 SampleWeights 用于偏差缓解:有效性取决于优化目标

发布: (2025年11月26日 GMT+8 06:50)
8 min read
原文: arXiv

Source: arXiv - 2511.20909v1

概览

本文研究了在模型训练过程中如何自动分配 样本级权重 以降低算法偏差。通过使用遗传算法(GA)进化权重,并将其与简单的启发式和均匀加权方案进行比较,作者展示了在选择合适的优化目标时,精心调校的权重能够在预测准确性和公平性之间实现更好的平衡。

主要贡献

  • 比较的三种加权策略: (1) GA 进化的权重,(2) 仅基于数据集统计量的解析权重,(3) 均匀(相等)权重。
  • 多目标 GA 设计: GA 同时优化两个预测指标(准确率、AUC‑ROC)和两个公平性指标(人口统计平等差异、子群假阴性率)。
  • 广泛的实证评估: 在 11 个公开数据集(包括两个医学数据集)上进行实验,以评估跨多个领域的权衡。
  • 关于目标选择的洞见: 进化权重的收益取决于 GA 被要求优化的指标对;准确率 + 人口统计平等的组合能够带来最一致的改进。
  • 统计验证: 显著性检验表明,在大多数数据集上,进化权重在所选目标下优于其他两种策略。

方法论

  1. 数据与基线 – 对每个数据集,作者在三种加权方案下训练标准分类器(如逻辑回归或浅层神经网络):

    • 均匀:每个样本权重 = 1。
    • 启发式:权重依据类别不平衡和受保护组比例推导(不学习)。
    • GA 进化:在若干代中进化一组权重向量。
  2. 遗传算法

    • 编码: 每个个体为每个训练实例编码一个权重。
    • 适应度: 多目标适应度函数结合两个预测分数(准确率或 AUC)和两个公平性分数(人口统计平等差异、子群假阴性差异)。
    • 选择与变异: 使用标准的锦标赛选择、交叉和突变算子。GA 运行至收敛或达到固定代数上限。
  3. 评估 – 使用选定权重进行训练后,在保留的测试集上评估模型。记录配对的预测和公平性指标,并使用 Wilcoxon 符号秩检验评估 GA 进化权重相较基线是否具有统计显著的提升。

结果与发现

优化指标组合GA 进化显著优于基线的数据集数量
准确率 + 人口统计平等8 / 11
准确率 + 子群假阴性率5 / 11
AUC + 人口统计平等6 / 11
AUC + 子群假阴性率4 / 11
  • 权衡质量: GA 进化的权重始终能够在 Pareto 前沿上找到更接近理想角点(高准确率、低平等差距)的点,优于其他两种方法。
  • 增益幅度: 平均而言,准确率提升约 1.5 %,人口统计平等差距相对均匀加权缩小约 3 %。
  • 数据集敏感性: 在类别不平衡显著或受保护属性与目标高度相关的数据集上,增益更大。
  • 目标依赖性: 当 GA 被要求同时优化 AUC 与子群假阴性公平性时,改进幅度有限,表明预测指标的选择会影响效果。

实际意义

  • 即插即用的公平层: 开发者可以在任何现成分类器外部包装一个基于 GA 的权重优化器,从而在不重新设计学习算法的前提下,实现所需的公平‑准确性权衡。
  • 可定制的目标: 通过替换不同的公平或性能指标,团队可以将优化器对齐到产品特定的 SLA(例如,在医学筛查工具中最小化假阴性,同时保持人口统计平等)。
  • 降低工程开销: 与对抗性去偏或后处理方法相比,权重进化直接作用于训练数据,意味着现有的特征工程、超参数调优流程保持不变。
  • 对中等规模数据的可扩展性: GA 处理的是每样本的权重,内存需求随训练集线性增长。对于数万条记录(在许多 SaaS 或健康科技场景中常见),该方法在单 CPU 核心上即可在几分钟内完成。
  • 可与 AutoML 集成的潜力: 权重进化步骤可视作另一个超参数搜索维度,从而在 CI/CD 流水线中实现自动化的公平感知模型选择。

局限性与未来工作

  • 对超大数据集的可扩展性: 每样本编码使 GA 在数百万行数据上成本高昂;未来工作可探索代理模型或基于聚类的权重共享策略。
  • 指标选择偏差: 本研究仅考察了四个指标;实际部署可能需要其他公平概念(如等价机会)或领域特定的效用函数。
  • 静态加权: 权重在训练后固定;推理时的动态或实例级加权(例如基于上下文)仍未探索。
  • 对噪声受保护属性的鲁棒性: 方法假设受保护组标签准确;处理标签不确定性或多受保护属性情形仍是开放挑战。

结论: 使用多目标遗传算法进化样本权重提供了一条实用、模型无关的路径,以实现更好的公平‑性能权衡,尤其在开发者能够明确界定其关注的目标时。随着工具链的成熟,这一技术有望成为负责任 AI 流水线的标准组成部分。

Back to Blog

相关文章

阅读更多 »