[Paper] MEVER：多模态可解释的声明验证与基于图的证据检索

发布: 2天前 (2026年2月11日 GMT+8 01:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.10023v1

概述

论文 MEVER 解决了自动事实核查中的一个核心挑战：验证依赖于文本和图像（例如，描述图表的标题）的声明。它提出了一个统一系统，不仅能够检索正确的多模态证据，还能判断声明的真伪并生成可供人类阅读的解释。通过新增的科学领域基准（AIChartClaim），作者展示了其方法在超出通用新闻数据之外的有效性。

关键贡献

联合多模态证据检索：使用两层图结构链接声明、文本片段和图像，实现图像到文本和文本到图像的推理。
Token 级和证据级融合架构：将声明嵌入与多模态证据表示相结合，以获得更准确的验证。
可解释输出：通过 “Fusion‑in‑Decoder” 模块生成基于检索证据的自然语言推理。
AIChartClaim 数据集：一个精心策划的 AI 研究论文声明与图表图像及支持文本配对的数据集，填补了科学声明验证资源的空白。
全面评估：在现有通用领域基准和新的科学基准上均展示了最先进的性能。

方法论

图构建 – 对于每个声明，系统构建一个二分图：一侧保存文本证据（句子、标题），另一侧保存视觉证据（图表、图形）。边的权重由使用预训练编码器（例如用于图像‑文本对齐的 CLIP）计算的跨模态相似度分数决定。
两层检索
- 第 1 层：基于声明‑证据相似度检索一组粗略的候选文本和图像。
- 第 2 层：通过在图上传播相关性分数对候选集进行细化，使图像能够提升相关文本，反之亦然（图像‑到‑文本和文本‑到‑图像推理）。
验证融合
- Token‑级：将声明的 token 与已分词的证据通过交叉注意力融合，让模型关注最具信息量的词汇/像素。
- 证据级：将整句和整图的嵌入通过门控注意力聚合，生成紧凑的多模态表示，随后输入分类器（真/假）。
解释生成 – 解码器接收融合后的多模态上下文（即用于验证的相同嵌入），并生成文本化的理由说明。 “Fusion‑in‑Decoder” 设计确保解释直接关联到驱动决策的证据。

所有组件通过多任务损失（检索、验证、解释）端到端训练，促使模型将证据选择与最终判决及其推理过程对齐。

结果与发现

数据集	验证准确率 ↑	解释 BLEU ↑
FEVER‑MM（通用）	84.7%（相较之前的 78.3%）	21.4（相较 16.9）
AIChartClaim（科学）	78.2%（相较之前的 70.1%）	18.7（相较 13.5）

基于图的检索将相关多模态证据的召回率提升约 12%，相较于基线 TF‑IDF + CLIP 检索。
令牌级融合对依赖细粒度文本线索的主张（例如 “趋势线向上”）带来显著提升。
解释质量与验证准确率高度相关，证实更好的证据选择能够产生更可信的推理。

消融实验表明，去除图层或 Decoder 中的 Fusion‑in‑Decoder 任一模块，性能均下降超过 5%，凸显了每个模块的重要性。

实际意义

AI 研究的事实核查流水线 – 开发用于审计科学论文的工具（例如，可重复性检查）时，可以接入 MEVER 的检索和验证模块，自动标记可疑的图表类声明。
社交平台的内容审核 – 当用户分享表情包或信息图时，MEVER 能够联合分析标题和图像，检测错误信息，并为审核员提供简明的依据。
合规性的可解释 AI – 需要审计追踪的企业（例如，财务报告）可以使用生成的解释，以满足监管要求，即说明“为何”某个声明被接受或拒绝。
数据集创建 – AIChartClaim 流水线展示了一种可复现的方式，从科学 PDF 中收集声明‑证据对，从而使其他领域（医学、气候等）能够构建类似的基准。

由于该系统是端到端可训练的，并且依赖公开可用的编码器（BERT、CLIP），开发者可以在特定领域语料上微调 MEVER，而无需重新构建整个架构。

限制与未来工作

Domain transfer – 虽然 AIChartClaim 在 AI 研究中显示出有前景的结果，但在高度专业化的视觉领域（例如医学影像）的性能仍未经过测试。
Scalability of graph retrieval – 两层图结构会随候选证据数量的增加呈二次增长；在大规模部署时需要使用近似最近邻的技巧。
Explanation fidelity – BLEU 分数有所提升，但人工评估发现偶尔会出现“幻觉”式的推理，即提及实际上并未检索到的证据。
Future directions suggested by the authors include:
1. 将结构化数据（表格、代码片段）整合进多模态图中。
2. 探索对比学习，以进一步使解释与证据对齐。
3. 应用强化学习来优化检索成本与验证准确性之间的权衡。

作者

Delvin Ce Zhang
Suhan Cui
Zhelin Chu
Xianren Zhang
Dongwon Lee

论文信息

arXiv ID: 2602.10023v1
分类: cs.CL
发布于: 2026年2月10日
PDF: Download PDF

[Paper] MEVER：多模态可解释的声明验证与基于图的证据检索

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 基于策略的上下文蒸馏用于语言模型

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型

[Paper] “抱歉，我没听清”：语音模型如何错过最重要的内容

[Paper] Moonshine v2：Ergodic Streaming Encoder ASR 用于对延迟敏感的语音应用