[Paper] 在像素空间通过序数评分相关性定位 Shortcut Learning 以实现 Attribution Representations (OSCAR)
发布: (2025年12月22日 GMT+8 05:06)
8 min read
原文: arXiv
Source: arXiv - 2512.18888v1
概述
本文提出了 OSCAR,一个模型无关的工具包,它将像素级归因图转换为统计的“rank profiles”,随后利用相关性分析精准定位深度网络依赖的虚假捷径。通过将测试模型与平衡基线以及敏感属性预测器进行比较,OSCAR 量化了对捷径的依赖程度,并突出显示了具体负责的图像区域——这在以前只能通过模糊的视觉检查来实现。
关键贡献
- 数据集层面的快捷方式评分: 将每幅图像的归因图转换为排序的区域概况,从而实现跨模型的统计比较。
- 三向相关框架: 在测试模型 (TS)、平衡基线 (BA) 和敏感属性预测器 (SA) 之间进行成对、偏相关和偏差基相关,以揭示快捷方式依赖。
- 模型无关且轻量: 适用于任何预训练网络,仅需像素空间归因图(例如 Grad‑CAM、Integrated Gradients)。
- 鲁棒性验证: 在 CelebA(人脸)、CheXpert(胸部 X‑光)和 ADNI(MRI)上展示对随机种子、数据划分和不同快捷方式强度的稳定性。
- 实用的缓解方案: 表明在测试时削弱识别出的快捷方式区域可降低最差组的性能差距。
- 开源实现: 完整代码已发布,鼓励可重复性和快速采用。
方法论
- 生成归因图 – 对每张图像,任何标准归因技术(例如 Grad‑CAM)会生成一个热图,评分每个像素对模型预测的贡献程度。
- 创建排名概况 – 将像素从最重要到最不重要排序,得到一个 排名向量,捕获该图像的空间重要性顺序。
- 构建三组模型
- BA(Balanced baseline): 在特征与标签去相关化的数据版本上训练。
- TS(Test model): 正在审查的模型,可能利用捷径特征。
- SA(Sensitive‑attribute predictor): 一个用于预测已知敏感属性(如性别、疾病严重程度)的模型。
- 相关性分析 – 对每个图像区域(例如超像素或补丁),计算:
- 成对相关性:TS 与 SA 排名分数之间的相关性(它们对该区域的加权相似程度)。
- 偏相关:控制 BA 的影响(隔离出超出公平模型的捷径效应)。
- 基于偏差的相关性:衡量 TS 的排名相对于 BA 的偏离程度,同时与 SA 对齐的程度。
- 聚合指标 – 将每个区域的相关性在整个数据集上汇总,生成“捷径强度”热图和标量捷径依赖得分。
- 缓解(可选) – 在推理时,对得分最高的捷径区域进行降权或遮蔽,然后再将图像输入 TS,以降低偏差。
结果与发现
| 数据集 | 捷径类型 | 相关性度量行为 | 关键要点 |
|---|---|---|---|
| CelebA(发色 vs. 性别) | 可见,局部 | 当包含 BA 时,成对 TS‑SA 相关性高;偏相关低 | OSCAR 正确标记发色区域为捷径。 |
| CheXpert(管道出现 vs. 疾病标签) | 弥散,细微 | 随着捷径注入强度增加,基于偏差的相关性上升;在不同随机种子下保持稳定 | 表明 OSCAR 能检测不明显、分布广泛的线索。 |
| ADNI(扫描仪地点 vs. 阿尔茨海默病诊断) | 非视觉,域转移 | 即使归因图在肉眼下看起来均匀,相关性指标仍然显著 | 展示了在捷径不可见的医学影像中的实用性。 |
其他观察
- 稳定性: 在 10 个随机种子和 5 折划分下,相关性得分变化小于 2%。
- 敏感性: 当训练数据中捷径‑标签关联从 0.9 降至 0.5(Pearson)时,捷径得分成比例下降,证实该指标能够追踪真实的捷径强度。
- 缓解影响: 在测试时对前 10% 捷径区域进行简单衰减,可在不影响整体性能的前提下,将 CelebA 和 CheXpert 的最差组准确率提升 4–7%。
Practical Implications
- Bias audits for regulated domains: 开发用于医疗、金融或招聘的 AI 时,开发者可以在已有模型上运行 OSCAR,以发现那些肉眼不易察觉的隐藏偏差线索。
- Model selection & debugging: 与其仅依赖单一验证集,团队可以通过快捷分数比较多个候选架构,倾向选择即使整体准确率相近但分数较低的模型。
- Lightweight deployment: 由于 OSCAR 在归因图上进行后置处理,它可以无须重新训练模型而直接集成到 CI 流程中。
- Targeted data collection: 空间映射揭示了数据泄露快捷方式的具体位置,从而指导数据策展者收集更平衡的样本或对这些区域进行增强。
- Test‑time safety nets: 衰减步骤可以封装为“偏差过滤”层,在最终预测前自动抑制可疑区域,提供快速的缓解方案,同时计划更彻底的重新训练。
限制与未来工作
- 对归因质量的依赖: 噪声或有偏的归因方法可能会将错误传播到排名概况中;作者建议使用稳健的可解释性工具,但也承认这是一个瓶颈。
- 补丁粒度的权衡: 非常细粒度的补丁会增加计算成本,并可能对噪声过拟合,而粗粒度的补丁则可能错过细微的捷径。自适应补丁大小的研究留待未来。
- 仅限像素空间线索: OSCAR 目前无法捕捉存在于特征空间(例如频率模式)中的捷径,除非有可视化代理。将该框架扩展到其他模态(音频、文本嵌入)是一个开放方向。
- 缓解方法的简易性: 测试时的衰减只是概念验证;更复杂的去偏方法(例如基于 OSCAR 分数的对抗训练)可能带来更大的提升。
总体而言,OSCAR 为开发者提供了一种实用、统计上有依据的视角,以 检测、量化并初步缓解 捷径学习——这是一条通往可信 AI 系统的日益关键的道路。
作者
- Akshit Achara
- Peter Triantafillou
- Esther Puyol‑Antón
- Alexander Hammers
- Andrew P. King
论文信息
- arXiv ID: 2512.18888v1
- 分类: cs.CV
- 发表时间: 2025年12月21日
- PDF: 下载 PDF