[Paper] 在像素空间通过序数评分相关性定位 Shortcut Learning 以实现 Attribution Representations (OSCAR)

发布: 1周前 (2025年12月22日 GMT+8 05:06)

8 min read

原文: arXiv

Source: arXiv - 2512.18888v1

概述

本文提出了 OSCAR，一个模型无关的工具包，它将像素级归因图转换为统计的“rank profiles”，随后利用相关性分析精准定位深度网络依赖的虚假捷径。通过将测试模型与平衡基线以及敏感属性预测器进行比较，OSCAR 量化了对捷径的依赖程度，并突出显示了具体负责的图像区域——这在以前只能通过模糊的视觉检查来实现。

关键贡献

数据集层面的快捷方式评分： 将每幅图像的归因图转换为排序的区域概况，从而实现跨模型的统计比较。
三向相关框架： 在测试模型 (TS)、平衡基线 (BA) 和敏感属性预测器 (SA) 之间进行成对、偏相关和偏差基相关，以揭示快捷方式依赖。
模型无关且轻量： 适用于任何预训练网络，仅需像素空间归因图（例如 Grad‑CAM、Integrated Gradients）。
鲁棒性验证： 在 CelebA（人脸）、CheXpert（胸部 X‑光）和 ADNI（MRI）上展示对随机种子、数据划分和不同快捷方式强度的稳定性。
实用的缓解方案： 表明在测试时削弱识别出的快捷方式区域可降低最差组的性能差距。
开源实现： 完整代码已发布，鼓励可重复性和快速采用。

方法论

生成归因图 – 对每张图像，任何标准归因技术（例如 Grad‑CAM）会生成一个热图，评分每个像素对模型预测的贡献程度。
创建排名概况 – 将像素从最重要到最不重要排序，得到一个 排名向量，捕获该图像的空间重要性顺序。
构建三组模型
- BA（Balanced baseline）： 在特征与标签去相关化的数据版本上训练。
- TS（Test model）： 正在审查的模型，可能利用捷径特征。
- SA（Sensitive‑attribute predictor）： 一个用于预测已知敏感属性（如性别、疾病严重程度）的模型。
相关性分析 – 对每个图像区域（例如超像素或补丁），计算：
- 成对相关性：TS 与 SA 排名分数之间的相关性（它们对该区域的加权相似程度）。
- 偏相关：控制 BA 的影响（隔离出超出公平模型的捷径效应）。
- 基于偏差的相关性：衡量 TS 的排名相对于 BA 的偏离程度，同时与 SA 对齐的程度。
聚合指标 – 将每个区域的相关性在整个数据集上汇总，生成“捷径强度”热图和标量捷径依赖得分。
缓解（可选） – 在推理时，对得分最高的捷径区域进行降权或遮蔽，然后再将图像输入 TS，以降低偏差。

结果与发现

数据集	捷径类型	相关性度量行为	关键要点
CelebA（发色 vs. 性别）	可见，局部	当包含 BA 时，成对 TS‑SA 相关性高；偏相关低	OSCAR 正确标记发色区域为捷径。
CheXpert（管道出现 vs. 疾病标签）	弥散，细微	随着捷径注入强度增加，基于偏差的相关性上升；在不同随机种子下保持稳定	表明 OSCAR 能检测不明显、分布广泛的线索。
ADNI（扫描仪地点 vs. 阿尔茨海默病诊断）	非视觉，域转移	即使归因图在肉眼下看起来均匀，相关性指标仍然显著	展示了在捷径不可见的医学影像中的实用性。

其他观察

稳定性： 在 10 个随机种子和 5 折划分下，相关性得分变化小于 2%。
敏感性： 当训练数据中捷径‑标签关联从 0.9 降至 0.5（Pearson）时，捷径得分成比例下降，证实该指标能够追踪真实的捷径强度。
缓解影响： 在测试时对前 10% 捷径区域进行简单衰减，可在不影响整体性能的前提下，将 CelebA 和 CheXpert 的最差组准确率提升 4–7%。

Practical Implications

Bias audits for regulated domains: 开发用于医疗、金融或招聘的 AI 时，开发者可以在已有模型上运行 OSCAR，以发现那些肉眼不易察觉的隐藏偏差线索。
Model selection & debugging: 与其仅依赖单一验证集，团队可以通过快捷分数比较多个候选架构，倾向选择即使整体准确率相近但分数较低的模型。
Lightweight deployment: 由于 OSCAR 在归因图上进行后置处理，它可以无须重新训练模型而直接集成到 CI 流程中。
Targeted data collection: 空间映射揭示了数据泄露快捷方式的具体位置，从而指导数据策展者收集更平衡的样本或对这些区域进行增强。
Test‑time safety nets: 衰减步骤可以封装为“偏差过滤”层，在最终预测前自动抑制可疑区域，提供快速的缓解方案，同时计划更彻底的重新训练。

限制与未来工作

对归因质量的依赖： 噪声或有偏的归因方法可能会将错误传播到排名概况中；作者建议使用稳健的可解释性工具，但也承认这是一个瓶颈。
补丁粒度的权衡： 非常细粒度的补丁会增加计算成本，并可能对噪声过拟合，而粗粒度的补丁则可能错过细微的捷径。自适应补丁大小的研究留待未来。
仅限像素空间线索： OSCAR 目前无法捕捉存在于特征空间（例如频率模式）中的捷径，除非有可视化代理。将该框架扩展到其他模态（音频、文本嵌入）是一个开放方向。
缓解方法的简易性： 测试时的衰减只是概念验证；更复杂的去偏方法（例如基于 OSCAR 分数的对抗训练）可能带来更大的提升。

总体而言，OSCAR 为开发者提供了一种实用、统计上有依据的视角，以 检测、量化并初步缓解 捷径学习——这是一条通往可信 AI 系统的日益关键的道路。

作者

Akshit Achara
Peter Triantafillou
Esther Puyol‑Antón
Alexander Hammers
Andrew P. King

论文信息

arXiv ID: 2512.18888v1
分类: cs.CV
发表时间: 2025年12月21日
PDF: 下载 PDF

[Paper] 在像素空间通过序数评分相关性定位 Shortcut Learning 以实现 Attribution Representations (OSCAR)

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型