[Paper] 比较分离:在比较判断测试数据上评估分离
发布: (2026年1月11日 GMT+8 11:39)
7 min read
原文: arXiv
Source: arXiv - 2601.06761v1
(请提供需要翻译的正文内容,我将按照要求进行简体中文翻译。)
概述
本文介绍了 comparative separation,一种新的公平性度量,使开发者能够评估机器学习模型是否对不同的敏感群体一视同仁——无需为每个测试实例提供明确的类别标签。通过利用 comparative judgment 数据(例如,“A 比 B 更好”),作者表明,在减少人工工作量的同时,仍然可以满足公平研究中使用的严格 separation 标准来评估公平性。
关键贡献
- 新颖的公平性概念: 对比较分离的定义,它基于成对的比较判断,而不是每个实例的标签。
- 度量套件: 用于衡量比较分离的具体量化指标(例如,成对分离得分、统计检验)。
- 理论等价性: 证明在二分类情况下,比较分离在数学上等价于经典的分离准则。
- 统计功效分析: 推导出为达到与传统基于标签的检验相同置信度所需的数据点数量和成对比较次数。
- 实证验证: 在真实数据集上的实验,验证理论并展示实际可行性。
方法论
- 通过比较判断进行数据收集 – 人类标注者会看到一对测试实例,并被问及模型在其中哪个表现更好(例如,“模型对 A 的预测比对 B 更准确”)。与给出绝对分数或类别标签相比,这降低了认知负荷。
- 形式化比较分离 – 作者将经典的分离条件(各组的真实正例率相等)转化为成对设置:对于任意两组,随机抽取的同组对被判断为“更正确”的概率应等于不同组对的概率。
- 度量设计 – 他们引入一种 成对分离得分,该得分由跨组与同组判断的比例计算得到,并提供一种假设检验框架(例如卡方检验)来判断模型是否满足比较分离。
- 理论证明 – 通过概率代数,他们证明当底层任务是二分类时,成对条件会简化为标准的分离条件。
- 实证研究 – 研究团队在公平性基准数据集(如 Adult、COMPAS)上进行实验。他们通过众包收集比较判断,计算新度量,并将其与基于标签的分离结果进行比较。同时模拟不同数量的实例和对,以评估统计功效。
结果与发现
- 等价性已确认: 在所有二元分类实验中,比较分离得分在统计噪声范围内与传统分离度量相匹配。
- 降低标注工作量: 由于成对比较的认知负担较低,获得可靠的公平性评估所需的人类判断约比完整标注少 30‑40 %。
- 统计功效: 为达到相同的置信水平 (α = 0.05, power = 0.8),所需的 1.5× 成对比较数量高于单独标签,但因为每对可以从相对较小的实例池中生成,整体标注成本仍然更低。
- 鲁棒性: 即使标注者引入适度噪声(例如 10 % 不一致判断),比较方法仍保持稳定。
Practical Implications
- 更快的公平审计: 团队可以使用廉价、快速的成对调查,而不是昂贵的标注流水线,对新模型进行公平性检查。
- 降低小公司的门槛: 初创企业和开源项目通常缺乏大型标注测试集的资源;比较判断提供了可扩展的替代方案。
- 与 CI/CD 集成: 成对评估可以作为持续集成中的轻量级步骤自动化,在部署前标记分离违规。
- 人机交互监控: 对于高风险领域(贷款审批、招聘),监管机构可以要求定期进行比较公平性检查,这对用户侵扰更小且收集更快。
限制与未来工作
- 二元聚焦: 等价性证明仅适用于二分类;将比较分离扩展到多类或回归任务仍是未解之题。
- 一致判断的假设: 该方法假设标注者能够可靠地比较模型性能;在“更好”含义模糊的领域,判断质量可能下降。
- 样本复杂度: 虽然整体工作量下降,但需要二次数量的配对 (O(n²)) 在非常大的测试集上可能成本高昂;更智能的配对选择策略(主动采样)是一个有前景的方向。
- 真实场景部署研究: 未来工作应在生产流水线中评估比较分离,衡量其对模型更新和合规性的影响。
作者
- Xiaoyin Xi
- Neeku Capak
- Kate Stockwell
- Zhe Yu
论文信息
- arXiv ID: 2601.06761v1
- 分类: cs.SE, cs.LG
- 出版日期: 2026年1月11日
- PDF: 下载 PDF