[Paper] 在像素空间通过序数评分相关性定位 Shortcut Learning 以实现 Attribution Representations (OSCAR)

发布: (2025年12月22日 GMT+8 05:06)
8 min read
原文: arXiv

Source: arXiv - 2512.18888v1

概述

本文提出了 OSCAR,一个模型无关的工具包,它将像素级归因图转换为统计的“rank profiles”,随后利用相关性分析精准定位深度网络依赖的虚假捷径。通过将测试模型与平衡基线以及敏感属性预测器进行比较,OSCAR 量化了对捷径的依赖程度,并突出显示了具体负责的图像区域——这在以前只能通过模糊的视觉检查来实现。

关键贡献

  • 数据集层面的快捷方式评分: 将每幅图像的归因图转换为排序的区域概况,从而实现跨模型的统计比较。
  • 三向相关框架: 在测试模型 (TS)、平衡基线 (BA) 和敏感属性预测器 (SA) 之间进行成对、偏相关和偏差基相关,以揭示快捷方式依赖。
  • 模型无关且轻量: 适用于任何预训练网络,仅需像素空间归因图(例如 Grad‑CAM、Integrated Gradients)。
  • 鲁棒性验证: 在 CelebA(人脸)、CheXpert(胸部 X‑光)和 ADNI(MRI)上展示对随机种子、数据划分和不同快捷方式强度的稳定性。
  • 实用的缓解方案: 表明在测试时削弱识别出的快捷方式区域可降低最差组的性能差距。
  • 开源实现: 完整代码已发布,鼓励可重复性和快速采用。

方法论

  1. 生成归因图 – 对每张图像,任何标准归因技术(例如 Grad‑CAM)会生成一个热图,评分每个像素对模型预测的贡献程度。
  2. 创建排名概况 – 将像素从最重要到最不重要排序,得到一个 排名向量,捕获该图像的空间重要性顺序。
  3. 构建三组模型
    • BA(Balanced baseline): 在特征与标签去相关化的数据版本上训练。
    • TS(Test model): 正在审查的模型,可能利用捷径特征。
    • SA(Sensitive‑attribute predictor): 一个用于预测已知敏感属性(如性别、疾病严重程度)的模型。
  4. 相关性分析 – 对每个图像区域(例如超像素或补丁),计算:
    • 成对相关性:TS 与 SA 排名分数之间的相关性(它们对该区域的加权相似程度)。
    • 偏相关:控制 BA 的影响(隔离出超出公平模型的捷径效应)。
    • 基于偏差的相关性:衡量 TS 的排名相对于 BA 的偏离程度,同时与 SA 对齐的程度。
  5. 聚合指标 – 将每个区域的相关性在整个数据集上汇总,生成“捷径强度”热图和标量捷径依赖得分。
  6. 缓解(可选) – 在推理时,对得分最高的捷径区域进行降权或遮蔽,然后再将图像输入 TS,以降低偏差。

结果与发现

数据集捷径类型相关性度量行为关键要点
CelebA(发色 vs. 性别)可见,局部当包含 BA 时,成对 TS‑SA 相关性高;偏相关低OSCAR 正确标记发色区域为捷径。
CheXpert(管道出现 vs. 疾病标签)弥散,细微随着捷径注入强度增加,基于偏差的相关性上升;在不同随机种子下保持稳定表明 OSCAR 能检测不明显、分布广泛的线索。
ADNI(扫描仪地点 vs. 阿尔茨海默病诊断)非视觉,域转移即使归因图在肉眼下看起来均匀,相关性指标仍然显著展示了在捷径不可见的医学影像中的实用性。

其他观察

  • 稳定性: 在 10 个随机种子和 5 折划分下,相关性得分变化小于 2%。
  • 敏感性: 当训练数据中捷径‑标签关联从 0.9 降至 0.5(Pearson)时,捷径得分成比例下降,证实该指标能够追踪真实的捷径强度。
  • 缓解影响: 在测试时对前 10% 捷径区域进行简单衰减,可在不影响整体性能的前提下,将 CelebA 和 CheXpert 的最差组准确率提升 4–7%。

Practical Implications

  • Bias audits for regulated domains: 开发用于医疗、金融或招聘的 AI 时,开发者可以在已有模型上运行 OSCAR,以发现那些肉眼不易察觉的隐藏偏差线索。
  • Model selection & debugging: 与其仅依赖单一验证集,团队可以通过快捷分数比较多个候选架构,倾向选择即使整体准确率相近但分数较低的模型。
  • Lightweight deployment: 由于 OSCAR 在归因图上进行后置处理,它可以无须重新训练模型而直接集成到 CI 流程中。
  • Targeted data collection: 空间映射揭示了数据泄露快捷方式的具体位置,从而指导数据策展者收集更平衡的样本或对这些区域进行增强。
  • Test‑time safety nets: 衰减步骤可以封装为“偏差过滤”层,在最终预测前自动抑制可疑区域,提供快速的缓解方案,同时计划更彻底的重新训练。

限制与未来工作

  • 对归因质量的依赖: 噪声或有偏的归因方法可能会将错误传播到排名概况中;作者建议使用稳健的可解释性工具,但也承认这是一个瓶颈。
  • 补丁粒度的权衡: 非常细粒度的补丁会增加计算成本,并可能对噪声过拟合,而粗粒度的补丁则可能错过细微的捷径。自适应补丁大小的研究留待未来。
  • 仅限像素空间线索: OSCAR 目前无法捕捉存在于特征空间(例如频率模式)中的捷径,除非有可视化代理。将该框架扩展到其他模态(音频、文本嵌入)是一个开放方向。
  • 缓解方法的简易性: 测试时的衰减只是概念验证;更复杂的去偏方法(例如基于 OSCAR 分数的对抗训练)可能带来更大的提升。

总体而言,OSCAR 为开发者提供了一种实用、统计上有依据的视角,以 检测、量化并初步缓解 捷径学习——这是一条通往可信 AI 系统的日益关键的道路。

作者

  • Akshit Achara
  • Peter Triantafillou
  • Esther Puyol‑Antón
  • Alexander Hammers
  • Andrew P. King

论文信息

  • arXiv ID: 2512.18888v1
  • 分类: cs.CV
  • 发表时间: 2025年12月21日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »