[Paper] MEVER:多模态可解释的声明验证与基于图的证据检索

发布: (2026年2月11日 GMT+8 01:44)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.10023v1

概述

论文 MEVER 解决了自动事实核查中的一个核心挑战:验证依赖于文本和图像(例如,描述图表的标题)的声明。它提出了一个统一系统,不仅能够检索正确的多模态证据,还能判断声明的真伪并生成可供人类阅读的解释。通过新增的科学领域基准(AIChartClaim),作者展示了其方法在超出通用新闻数据之外的有效性。

关键贡献

  • 联合多模态证据检索:使用两层图结构链接声明、文本片段和图像,实现图像到文本和文本到图像的推理。
  • Token 级和证据级融合架构:将声明嵌入与多模态证据表示相结合,以获得更准确的验证。
  • 可解释输出:通过 “Fusion‑in‑Decoder” 模块生成基于检索证据的自然语言推理。
  • AIChartClaim 数据集:一个精心策划的 AI 研究论文声明与图表图像及支持文本配对的数据集,填补了科学声明验证资源的空白。
  • 全面评估:在现有通用领域基准和新的科学基准上均展示了最先进的性能。

方法论

  1. 图构建 – 对于每个声明,系统构建一个二分图:一侧保存文本证据(句子、标题),另一侧保存视觉证据(图表、图形)。边的权重由使用预训练编码器(例如用于图像‑文本对齐的 CLIP)计算的跨模态相似度分数决定。
  2. 两层检索
    • 第 1 层:基于声明‑证据相似度检索一组粗略的候选文本和图像。
    • 第 2 层:通过在图上传播相关性分数对候选集进行细化,使图像能够提升相关文本,反之亦然(图像‑到‑文本和文本‑到‑图像推理)。
  3. 验证融合
    • Token‑级:将声明的 token 与已分词的证据通过交叉注意力融合,让模型关注最具信息量的词汇/像素。
    • 证据级:将整句和整图的嵌入通过门控注意力聚合,生成紧凑的多模态表示,随后输入分类器(真/假)。
  4. 解释生成 – 解码器接收融合后的多模态上下文(即用于验证的相同嵌入),并生成文本化的理由说明。 “Fusion‑in‑Decoder” 设计确保解释直接关联到驱动决策的证据。

所有组件通过多任务损失(检索、验证、解释)端到端训练,促使模型将证据选择与最终判决及其推理过程对齐。

结果与发现

数据集验证准确率 ↑解释 BLEU ↑
FEVER‑MM(通用)84.7%(相较之前的 78.3%)21.4(相较 16.9)
AIChartClaim(科学)78.2%(相较之前的 70.1%)18.7(相较 13.5)
  • 基于图的检索将相关多模态证据的召回率提升约 12%,相较于基线 TF‑IDF + CLIP 检索。
  • 令牌级融合对依赖细粒度文本线索的主张(例如 “趋势线向上”)带来显著提升。
  • 解释质量与验证准确率高度相关,证实更好的证据选择能够产生更可信的推理。

消融实验表明,去除图层或 Decoder 中的 Fusion‑in‑Decoder 任一模块,性能均下降超过 5%,凸显了每个模块的重要性。

实际意义

  • AI 研究的事实核查流水线 – 开发用于审计科学论文的工具(例如,可重复性检查)时,可以接入 MEVER 的检索和验证模块,自动标记可疑的图表类声明。
  • 社交平台的内容审核 – 当用户分享表情包或信息图时,MEVER 能够联合分析标题和图像,检测错误信息,并为审核员提供简明的依据。
  • 合规性的可解释 AI – 需要审计追踪的企业(例如,财务报告)可以使用生成的解释,以满足监管要求,即说明“为何”某个声明被接受或拒绝。
  • 数据集创建 – AIChartClaim 流水线展示了一种可复现的方式,从科学 PDF 中收集声明‑证据对,从而使其他领域(医学、气候等)能够构建类似的基准。

由于该系统是端到端可训练的,并且依赖公开可用的编码器(BERT、CLIP),开发者可以在特定领域语料上微调 MEVER,而无需重新构建整个架构。

限制与未来工作

  • Domain transfer – 虽然 AIChartClaim 在 AI 研究中显示出有前景的结果,但在高度专业化的视觉领域(例如医学影像)的性能仍未经过测试。
  • Scalability of graph retrieval – 两层图结构会随候选证据数量的增加呈二次增长;在大规模部署时需要使用近似最近邻的技巧。
  • Explanation fidelity – BLEU 分数有所提升,但人工评估发现偶尔会出现“幻觉”式的推理,即提及实际上并未检索到的证据。
  • Future directions suggested by the authors include:
    1. 将结构化数据(表格、代码片段)整合进多模态图中。
    2. 探索对比学习,以进一步使解释与证据对齐。
    3. 应用强化学习来优化检索成本与验证准确性之间的权衡。

作者

  • Delvin Ce Zhang
  • Suhan Cui
  • Zhelin Chu
  • Xianren Zhang
  • Dongwon Lee

论文信息

  • arXiv ID: 2602.10023v1
  • 分类: cs.CL
  • 发布于: 2026年2月10日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »