[Paper] 迈向可信的多模态概念瓶颈模型

发布: 1个月前 (2026年3月14日 GMT+8 00:56)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.13163v1

Overview

本文介绍了 f‑CBM，一个将可信概念瓶颈模型（CBMs）引入多模态 AI 的新框架——想象一下能够在视觉‑语言系统中既进行预测又以人类可读的方式解释其决策的系统。通过同时解决概念检测和“leakage”（即隐藏信息潜入解释层）的挑战，f‑CBM 在不牺牲准确性的前提下提供了更可靠的预测。

关键贡献

统一的多模态 CBM 基于视觉‑语言骨干网络，既适用于图像‑文本配对，也适用于仅文本任务。
可微分泄漏损失 对任何任务相关信息泄漏到概念层进行惩罚，鼓励纯粹、可解释的表征。
Kolmogorov‑Arnold 网络 (KAN) 预测头 提供足够的表达能力，以提升概念检测，同时保持模型可处理。
全面的实证评估 显示在任务准确率、概念检测质量和泄漏降低方面相较于先前的 CBM 变体取得最佳权衡。
即插即用设计：f‑CBM 可附加到现有的视觉‑语言模型（如 CLIP、ViLT），工程工作量极小。

方法论

Backbone encoder – 标准的视觉‑语言 Transformer（例如 ViLT）处理原始输入（图像、文本或两者），并生成共享的潜在表示。
Concept bottleneck layer – 将潜在特征投射到一组预定义的、可人为解释的概念上（例如 “has wheels”、 “mentions price”）。该投射与网络的其余部分一起进行联合学习。
Leakage mitigation – leakage loss 用于衡量可以通过轻量探测网络从概念向量中恢复的任务相关信号量。该损失是可微的，因此在训练过程中模型会被显式地抑制在瓶颈中嵌入隐藏线索。
Prediction head – 作者并未使用简单的线性分类器，而是采用 Kolmogorov‑Arnold Network。KAN 通过一组单变量 ridge 函数的和来近似任意连续函数，使模型能够将纯概念映射到最终任务输出，而无需隐藏额外信息。
Joint optimization – 总损失结合了标准任务损失（例如分类交叉熵）、概念预测损失（确保每个概念被正确检测）以及 leakage loss。梯度下降同时更新所有组件，使概念检测和泄漏控制共同演化。

结果与发现

数据集	任务准确率 ↑	概念检测 F1 ↑	泄漏（越低越好）
多模态 VQA‑CB（图像 + 问题）	+2.3 % 相比基线 CBM	+4.1 % F1	‑35 % 减少
仅文本情感分析（含概念）	+1.1 % 相比基线	+3.6 % F1	‑28 % 减少
仅图像属性分类	+0.8 %	+2.9 % F1	‑31 % 减少

权衡：f‑CBM 始终位于帕累托前沿——在提升可解释性（概念 F1 更高，泄漏更低）的同时，保持或略微提升预测性能。
消融实验：去除泄漏损失导致隐藏信息显著上升（泄漏增加 70 %），尽管任务准确率保持相似，验证了该损失在强制忠实解释中的作用。
KAN 与线性头对比：KAN 头在不增加泄漏的情况下将概念检测提升约 3 %，表明更具表达性的头部可以取代通过隐藏信号“作弊”的需求。

实际意义

可调试的 AI 服务 – 必须对决策进行解释的部署（例如，医学影像分诊、电子商务推荐）现在可以展示人类可读的概念，并且确信这些概念真正驱动了输出。
监管合规 – 在要求“可解释 AI”的地区，f‑CBM 提供了可量化的泄漏度量，审计员可以检查。
快速原型 – 因为 f‑CBM 可以直接接入现有的视觉语言模型，团队能够在无需从头重新训练的情况下，为产品添加概念层级的可解释性。
主动学习与数据收集 – 精准的概念检测器能够实现有针对性的标注（例如，当模型不确定时，要求标注者验证“有轮子”），从而降低标注成本。
跨模态一致性检查 – 对于多模态系统，开发者可以验证相同概念在图像和文本输入中是否一致检测，从而及早捕获特定模态的偏差。

限制与未来工作

概念定义依赖 – 该框架假设预先指定了一组概念；自动发现或细化概念仍是一个未解决的挑战。
KAN 的可扩展性 – 虽然 KAN 比线性头更具表达力，但它们会带来适度的计算开销，这在超大规模部署时可能成为瓶颈。
评估范围 – 实验侧重于分类类任务；将 f‑CBM 扩展到生成任务（例如图像说明、代码合成）需要新的泄漏度量指标。
用户研究 – 论文在数学上衡量了忠实度，但未评估终端用户对概念的解释；未来工作可以加入以人为中心的评估。

总体而言，f‑CBM 在实现多模态 AI 的准确性与可解释性方面推动了技术前沿，为需要可信、概念层面解释的开发者提供了实用的路径。

作者

Pierre Moreau
Emeline Pineau Ferrand
Yann Choho
Benjamin Wong
Annabelle Blangero
Milan Bhan

论文信息

arXiv ID: 2603.13163v1
类别: cs.CV, cs.LG
出版时间: 2026年3月13日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

最近在文本条件的人体动作生成方面的进展主要得益于在大规模人体动作数据上训练的 diffusion models。基于 th...

[Paper] 时空物理系统的表征学习

机器学习方法针对时空物理系统主要聚焦于 next-frame prediction，目标是学习一个准确的 emulator f...

[Paper] Visual-ERM：视觉等价的奖励建模

Vision-to-code 任务要求模型将结构化的视觉输入（例如图表、表格和 SVG）重建为可执行或结构化的表示……

[Paper] 线性化注意力中的影响可塑性：非收敛 NTK 动力学的双重含义

理解注意力机制的理论基础仍然具有挑战性，因为它们具有复杂的非线性动力学。本工作揭示了一个基本的……