[Paper] SPD-Faith Bench: 诊断并提升多模态大语言模型的 Chain-of-Thought 忠实性

发布: (2026年2月8日 GMT+8 13:47)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.07833v1

概览

本文介绍了 SPD‑Faith Bench,一个新的诊断套件,用于探查多模态大语言模型(MLLM)是否真的 看到 它们推理所依据的图像,而不是仅仅输出看似合理的思考链。通过关注细粒度的视觉差异,作者揭示了最先进模型在忠实性方面的系统性缺口,并提出了一种轻量级的修复方法 SAGE,该方法在无需额外训练的情况下提升了视觉 grounding。

关键贡献

  • SPD‑Faith Bench:一个围绕“找不同”任务构建的基准,需要显式的视觉比较,以将忠实性从语言先验中隔离出来。
  • Failure‑mode analysis:识别当前多模态大语言模型中的两个常见问题——感知盲点(模型忽视视觉线索)和感知‑推理分离(模型的推理偏离其实际感知)。
  • Diagnostic tooling:探测方法,追踪根本原因至跨 Transformer 层的视觉注意力衰减以及残差流中的表征漂移。
  • SAGE framework:一种无需训练、在推理时使用的包装器,校准视觉证据,重新路由注意力至图像块,并使推理轨迹与视觉输入对齐。
  • Open resources:基准数据、评估脚本以及 SAGE 代码已公开发布。

方法论

  1. Benchmark design – 作者挑选在细微视觉属性上有差异的图像对(例如按钮颜色、是否存在小物体)。每个查询要求模型解释两幅图像为何不同,迫使模型生成逐步的视觉比较。

  2. Faithfulness measurement – 与仅检查答案正确性不同,他们将模型的推理轨迹与引用精确视觉证据的金标准链进行比较。差异表明推理不忠实。

  3. Model probing – 通过注意力展开和残差流分析,他们监控模型在生成思考链时,视觉 token 在各 Transformer 层的关注情况。

  4. SAGE (Self‑Attention Guided Evidence) – 推理时,SAGE 注入由模型自身注意力分数得到的校准视觉掩码,放大真正相关的图块并在推理模块运行前抑制噪声。无需梯度更新或微调。

结果与发现

模型(基线)在 SPD‑Faith 上的准确率Faithful‑Chain Score*
GPT‑4V (zero‑shot)68.2 %0.42
LLaVA‑1.5‑13B61.5 %0.35
MiniGPT‑455.8 %0.28

*Faithful‑Chain Score 衡量生成的推理步骤与金标准视觉证据之间的重叠程度(数值越高越好)。

  • 感知盲点:在前几层 Transformer 之后,对图像的注意力迅速衰减,导致模型依赖语言先验。
  • 感知‑推理分离:即使早期层关注了正确的图像块,后期层仍会改变表征,使推理模块生成不相关的解释。
  • SAGE 的影响:在所有模型上应用 SAGE 可使 Faithful‑Chain Score 平均提升 +0.18,整体答案准确率也有适度提升(+2–4 %)。该改进无需额外的训练数据或计算资源。

实际影响

  • 更可信的 AI 助手 – 开发视觉聊天机器人(例如用于电商或医学影像)的开发者可以集成 SAGE,以确保模型的解释真实反映图像,降低可能误导用户的幻觉。
  • 调试多模态流水线 – 基准测试和探测工具为工程师提供系统化的方法来发现视觉信息丢失的环节,指导架构调整(例如更深的视觉编码器、更好的跨模态融合)。
  • 合规监管 – 对于解释性被强制要求的领域(金融、医疗),像本文提出的可信度指标有助于满足审计要求,证明推理过程基于可观测数据。
  • 零成本改进 – 由于 SAGE 无需训练,可直接嵌入现有推理服务,几乎不增加延迟,为已经使用大语言模型的产品带来即时投资回报。

限制与未来工作

  • 视觉差异范围 – SPD‑Faith 专注于细粒度、确定性的变化;它不涵盖高级语义推理(例如场景理解),在这些情况下忠实性可能以不同方式表现。
  • 模型无关假设 – SAGE 依赖跨模态注意力图的存在;那些更早融合模态或使用非 Transformer 主干的模型可能需要调整技术。
  • 探测的可扩展性 – 详细的残差流分析计算成本高,限制了其在研究环境中的使用,而不适用于大规模生产监控。
  • 未来方向 作者建议包括将基准扩展到视频,探索不需要金标准链的自动忠实性度量,并将 SAGE 风格的校准整合到训练目标中,以实现更强的 grounding。

作者

  • Weijiang Lv
  • Yaoxuan Feng
  • Xiaobo Xia
  • Jiayu Wang
  • Yan Jing
  • Wenchao Chen
  • Bo Chen

论文信息

  • arXiv ID: 2602.07833v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发表时间: 2026年2月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »