[Paper] 相同内容,不同答案:跨模态不一致性在 MLLMs 中

发布: (2025年12月10日 GMT+8 02:57)
7 min read
原文: arXiv

Source: arXiv - 2512.08923v1

概览

论文 “相同内容,不同答案:多模态大型语言模型中的跨模态不一致性” 揭示了当今多模态大型语言模型(MLLM)中的一个令人惊讶的盲点:即使在文本、图像或两者混合的形式下呈现相同的语义信息,模型仍常给出不同的答案。为诊断并量化这一问题,作者提出了两个全新基准——RESTREST+(Render‑Equivalence Stress Tests),系统性地探测 MLLM 在跨模态推理时的一致性。

主要贡献

  • 两个新基准(REST 与 REST+): 精心挑选的三元组(文本、图像、混合)传递相同的事实内容,便于直接测量跨模态一致性。
  • 对 15 种最先进 MLLM 的全面评估: 包括流行的开源模型和商业模型,揭示一致性得分的巨大差异。
  • 深入的视觉因素分析: 证明文本颜色、分辨率和视觉 token 数量会影响性能,而字体样式影响不大。
  • 与模态差距的机制关联: 表明模型的一致性得分与其文本与图像表示之间的嵌入空间距离相关,为量化诊断提供依据。
  • 开源发布: 基准数据、评估脚本和一致性度量均公开供社区使用。

方法论

  1. 基准构建

    • REST: 1,200 条语义事实(例如 “埃菲尔铁塔位于巴黎”),分别以纯文本、相同句子的渲染图像以及混合提示(图像 + 文本)的形式呈现。
    • REST+: 在 REST 基础上加入 压力测试 变体——不同的文本颜色、分辨率和 token 数量,以检验视觉鲁棒性。
  2. 模型选择与提示

    • 15 种 MLLM,涵盖视觉‑语言 Transformer(如 BLIP‑2、LLaVA)、指令微调模型(如 GPT‑4V)以及开源替代方案(如 MiniGPT‑4)。
    • 统一提示语:“根据提供的内容回答问题。” 对每个事实的每种模态都使用相同的问题。
  3. 一致性评分

    • 对答案进行归一化(大小写折叠、同义词映射),并在模态之间进行两两比较。
    • 一致性得分 = 1 – 平均两两不一致率(0 表示完全不一致,1 表示完全一致)。
  4. 受控分析

    • 单独测量 OCR 准确率,以隔离纯视觉嵌入效应。
    • 通过保持底层文本不变,仅改变颜色、分辨率和 token 数量进行消融实验。

结果与发现

模型平均一致性 (REST)平均一致性 (REST+)
GPT‑4V(专有)0.780.71
LLaVA‑1.5‑13B0.550.48
MiniGPT‑4‑7B0.420.35
BLIP‑2‑FlanT5‑XXL0.610.54
  • 差异显著: 即使是顶级模型,一致性也相差超过 30 %。
  • OCR 不是全部原因: 在纠正 OCR 错误后,不一致性仍然存在,说明存在更深层的表征差距。
  • 视觉属性重要: 低对比度文本(如浅灰色在白底)和低分辨率渲染会导致一致性下降最多 15 %;字体样式影响可忽略不计。
  • Token 数量效应: 需要更多视觉 token 的图像(更大或更复杂的场景)会导致更高的不一致性,暗示视觉编码器的容量限制。
  • 模态差距相关性: 一致性得分与模型文本与图像嵌入的欧氏距离的 Pearson r = 0.68,支持“嵌入差距越大,一致性越差”的假设。

实际意义

  • 混合模态流水线的可靠性: 开发在 OCR 文本提取与直接图像理解之间切换的应用(如文档 AI、视觉助理)时,不能假设两者性能可互换。
  • 基准驱动的模型选型: REST/REST+ 可纳入 CI/CD 测试,以挑选满足关键用例一致性阈值的模型。
  • 提示工程: 添加显式的模态无关提示(例如 “无论以何种形式,以下内容均为事实”)可略微提升一致性,但仍无法替代架构层面的改进。
  • 模型设计指南: 与模态差距的相关性表明,未来的 MLLM 需要更紧密地对齐视觉与文本编码器——例如使用跨模态一致性损失的联合对比训练。
  • 用户体验: 不一致的答案会削弱信任。界面设计者可以显示一个“置信度”指示器,反映跨模态答案的一致性,在答案出现差异时提醒用户。

局限性与未来工作

  • 内容范围: 基准聚焦于事实陈述;推理密集或叙事性内容可能呈现不同的不一致模式。
  • 语言覆盖: 所有提示均为英文,尚未探索多语言一致性。
  • 静态评估: 本研究未评估在一致性导向数据上微调后模态差距的变化。
  • 硬件限制: 部分大型模型因 GPU 显存不足未能在完整基准上评估,可能导致样本偏向较小模型。

未来的研究方向包括将 REST+ 扩展到多语言和多模态推理任务,开发直接最小化模态差距的训练目标,以及探索动态 token 分配策略以缓解视觉 token 瓶颈。

作者

  • Angela van Sprang
  • Laurens Samson
  • Ana Lucic
  • Erman Acar
  • Sennay Ghebreab
  • Yuki M. Asano

论文信息

  • arXiv ID: 2512.08923v1
  • 分类: cs.AI
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »