[Paper] 跨模态冲突下大型多模态模型推理一致性分析

发布: (2026年1月8日 GMT+8 00:39)
7 min read
原文: arXiv

Source: arXiv - 2601.04073v1

概述

本文探讨了为何在视频上使用链式思考(CoT)提示进行推理的大型多模态模型(LMM)常常卡在错误的文本推断上,忽视相矛盾的视觉线索——作者将这种失误称为 textual inertia。通过系统性地向模型的推理链中注入逻辑扰动,作者揭示了模型自我纠正的频率极低,并提出了一种无需额外训练的推理技术,强制模型在视觉流中重新定位其思考,从而显著降低幻觉传播。

关键贡献

  • “文本惯性”识别 – 一种系统性失效模式,早期的文本幻觉驱动后续推理,覆盖视觉证据。
  • LogicGraph 扰动协议 – 一个基准,通过程序化地在 CoT(思维链)序列中插入逻辑不一致,以探测各种 LMM 架构(本地推理 vs. 提示驱动)的自我反思能力。
  • 综合评估 – 显示不到 10 % 的扰动案例能够自我纠正,证实大多数模型盲目跟随最初的错误。
  • 主动视觉上下文细化 (AVCR) – 一种无需训练的推理框架,(1) 主动将每一步推理重新锚定到视觉输入,(2) 自适应细化文本上下文以过滤噪声。
  • 实证收益 – AVCR 将幻觉传播削减至约 45 %,并在多个视频问答基准上提升整体推理准确率。

方法论

  1. LogicGraph 构建 – 对于每个视频‑问题对,作者构建一个有向图,表示 CoT 答案的逻辑流程。节点是中间的文本陈述;边缘编码依赖关系。
  2. 扰动注入 – 他们翻转选定节点的真值(例如,“the cat is red” → “the cat is blue”),并将变化向下传播,产生冲突,即修改后的文本与视觉证据不一致。
  3. 测试的模型族
    • 本地推理 LMMs(例如 Flamingo‑V、Video‑ChatGPT),在内部生成 CoT。
    • 提示驱动 LMMs,通过提示接收外部 CoT 模板。
  4. 自我反思测量 – 扰动后,检查模型的最终答案是否检测并纠正了不一致。
  5. 主动视觉上下文细化 – 推理期间,每个 CoT 步骤触发:
    • 视觉再定位: 模型为当前主张提取细粒度视觉特征图并计算一致性得分。
    • 上下文去噪: 轻量级 transformer 汇总推理历史,降低被标记为不一致的陈述的权重。
      该循环在不使用额外训练数据或参数更新的情况下运行。

结果与发现

模型自我纠正率(扰动)AVCR 带来的准确率提升
Native LMM (Flamingo‑V)8 %+12.3 %
Prompt‑driven LMM (Video‑ChatGPT)6 %+10.7 %
Baseline (no AVCR)
  • 幻觉传播: 在 >90 % 的扰动案例中,错误的文本声明持续出现在最终答案中。
  • AVCR 有效性: 主动视觉检查捕获了约 70 % 的注入冲突,且上下文细化防止错误污染后续步骤。
  • 速度开销: AVCR 增加约 0.3× 的推理延迟,这是为稳健性提升付出的适度代价。

实际意义

  • 更可靠的视频问答系统: 在监控、体育分析或电子学习中的部署现在可以相信模型不会盲目跟随单个误检测的对象或事件。
  • 易于调试的 AI 助手: 视觉重新定位步骤为每个推理步骤提供置信分数,为开发者提供诊断钩子,以显示模型偏离轨道的具体位置。
  • 零样本鲁棒性: 由于 AVCR 无需训练,现有的 LMM 服务可以通过一个简单的推理包装器进行升级,避免昂贵的微调流程。
  • 跨模态一致性检查: 该协议可以重新用作融合语言和视觉的任何系统的基准,鼓励社区构建真正“先看后说”的模型。

限制与未来工作

  • 扰动范围: LogicGraph 协议目前仅关注二元真值翻转;更细微的语义漂移(例如微妙的属性变化)仍未被探索。
  • 视觉定位粒度: AVCR 依赖预先提取的帧级特征;将其应用于高分辨率、长时段视频可能会增加计算成本。
  • 对其他模态的泛化: 本研究局限于视频‑文本;将该方法扩展到音视频或文本‑到‑3D 场景仍是一个开放的方向。
  • 用户可控的权衡: 未来工作可以公开一个可调的“细化激进度”参数,让开发者在不同应用中平衡延迟与鲁棒性。

底线: 通过揭示文本惯性并提供一种轻量级、仅推理阶段的修复方案,该工作使大型多模态模型在可信的真实世界推理方面更进一步。

作者

  • Zhihao Zhu
  • Jiafeng Liang
  • Shixin Jiang
  • Jinlan Fu
  • Ming Liu
  • Guanglu Sun
  • See‑Kiong Ng
  • Bing Qin

论文信息

  • arXiv ID: 2601.04073v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 出版日期: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】Web World Models

语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...