[Paper] 关键点计数分类器:将 Vision Transformers 转换为无需训练的自解释模型

发布: (2025年12月20日 GMT+8 02:47)
6 min read
原文: arXiv

Source: arXiv - 2512.17891v1

Overview

本文介绍了 关键点计数分类器 (KCCs),这是一种技术,可将任何预训练的 Vision Transformer (ViT) 转化为 无需额外训练 的自解释模型。通过利用 ViT 天生的在图像之间定位匹配关键点的能力,KCCs 能够生成直接在输入上可视化的决策,弥合强大基础模型与开发者和终端用户所需透明性之间的差距。

关键贡献

  • 无训练自解释性: 将冻结的 ViT 转换为可解释的分类器,无需重新训练或架构更改。
  • 基于关键点的决策规则: 使用测试图像与类别特定原型补丁之间匹配关键点的计数来驱动预测。
  • 人类可读解释: 生成视觉叠加,准确显示哪些图像区域对最终类别投票作出贡献。
  • 全面评估: 在标准视觉基准上展示相较于近期自解释基线的更优的人机沟通指标。
  • 广泛适用性: 适用于任何训练良好的 ViT(如 ViT‑B/16、DeiT、CLIP 视觉编码器),可作为现有基础模型的即插即用透明层。

方法论

  1. 提取补丁嵌入: 冻结的 ViT 处理输入图像,生成一组 token 嵌入——每个图像补丁对应一个。
  2. 识别关键点: 对于每个 token,方法计算其与一小组 类原型(从训练集收集的代表性补丁)的相似度分数。高相似度表示该 token 是匹配该类已知视觉模式的“关键点”。
  3. 统计每类匹配数: 统计超过相似度阈值的关键点数量,对每个类进行计数。
  4. 决策规则: 关键点计数最高的类获胜。由于计数来源于明确的补丁匹配,推理过程透明。
  5. 可视化: 在原始图像上高亮显示匹配的补丁,为开发者提供清晰的像素级解释,说明模型为何选择特定标签。

整个流水线仅在推理阶段运行;唯一额外需要的数据是原型补丁,可一次性从原始训练集提取。

结果与发现

  • 准确率权衡: KCCs 在 ImageNet‑1k 上保留了原始 ViT ≈95 % 的 top‑1 准确率,同时提供解释。
  • 解释质量: 人类研究表明,与之前的自解释方法(如 ProtoPNet、Attention Rollout)相比,信任度提升 30 %,且决策验证更快。
  • 速度: 添加计数步骤在单个 RTX‑3090 上每张图像增加的时间 < 5 ms,使系统仍适用于实时应用。
  • 鲁棒性: 关键点计数在常见的腐蚀(噪声、模糊)下保持稳定,表明解释对微小扰动不敏感。

Source:

实际意义

  • 可部署的透明性: 企业可以将现有基于 ViT 的服务(图像分类、内容审核、医学影像)包装上 KCC,以满足监管或内部审计要求,而无需进行昂贵的模型再训练。
  • 调试与数据质量: 可视化关键点图帮助工程师发现标注错误或系统性偏差(例如模型依赖背景纹理)。
  • 交互式工具: 前端 UI 可以叠加关键点解释,使终端用户能够理解预测结果,适用于电商(为何将商品归类)或自动驾驶(哪些视觉线索触发检测)等场景。
  • 基础模型集成: 由于 KCC 可与 CLIP 的视觉编码器配合使用,多模态系统能够为视觉分支继承可解释性,而语言分支保持不变。

限制与未来工作

  • 原型选择: 解释的质量取决于存储的原型补丁的代表性;次优原型可能导致关键点计数噪声。
  • 对大量类别的可扩展性: 对数千个类别计数关键点可能会增加内存开销;作者建议使用层次化原型聚类来缓解。
  • 超越分类: 当前的公式处理图像级标签;将 KCC 扩展到检测、分割或视频任务仍是一个未解决的挑战。
  • 对抗鲁棒性: 虽然比某些基线更稳定,但该方法依赖相似度阈值可能被利用;未来工作可以探索关键点计数的认证界限。

总体而言,KCC 为将当今强大的 ViT 基础模型同时实现 高性能自解释 提供了务实的路径,为在安全关键和合规驱动的行业中更广泛的采用打开了大门。

作者

  • Kristoffer Wickstrøm
  • Teresa Dorszewski
  • Siyan Chen
  • Michael Kampffmeyer
  • Elisabeth Wetzer
  • Robert Jenssen

论文信息

  • arXiv ID: 2512.17891v1
  • 分类: cs.CV
  • 出版日期: 2025年12月19日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 流媒体视频指令微调

我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……