[Paper] OMIBench：大型视觉语言模型中奥林匹克水平多图像推理的基准测试

发布: 1天前 (2026年4月23日 GMT+8 01:37)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.20806v1

概述

本文介绍了 OMIBench，这是一项新基准，旨在推动大型视觉语言模型（LVLMs）在 multiple 图像上进行推理——这一能力类似于科学家通过整合多幅图表、图形或实验照片的证据来解决奥林匹克水平的问题。通过聚焦多图像情境，作者揭示了现有评估中的盲点——这些评估大多只测试单图像理解。

关键贡献

多图像推理基准：策划了 1,200 多道奥林匹克风格的题目，涵盖生物、化学、数学和物理，需要综合两张或更多图像中的信息。
人工标注的推理过程：每个问题都附有逐步解释，便于对模型推理路径进行细粒度分析。
双重评估协议：提供精确匹配评分和语义匹配评分（使用基于大语言模型的答案等价性），以捕捉细微的正确性。
全面的 LVLM 评估：对从开源 LLaVA‑13B 到专有 Gemini‑3‑Pro 的广泛模型进行基准测试，显示即使是最强系统也仅能达到约 50% 的上限。
开源发布：数据集、标注文件和评估脚本均公开，可鼓励社区驱动的改进。

方法论

问题收集 – 作者挖掘过去的奥林匹克考试并挑选出解答明确引用多个视觉工件（例如化学反应图加显微镜图像）的题目。
标注流程 – 领域专家撰写详细的推理过程，标记哪张图像提供了哪部分证据。这些推理既作为真实标签，也作为未来微调的训练信号。
提示设计 – 对每个测试项，模型接收一个包含所有相关图像（编码为视觉标记）和文本问题的拼接提示。没有额外的“图像索引”提示，迫使模型自主发现跨图像关联。
评分
- 精确匹配：模型的文本答案与金标准答案逐字比较。
- 语义匹配：使用大型语言模型（GPT‑4）判断答案是否传达相同的科学结论，容忍改写。
基线实验 – 作者评估了 12 种 LVLM，测量整体准确率和各领域表现，并进行消融研究（例如去除一张图像）以量化多图像上下文的贡献。

结果与发现

Model	精确匹配准确率	语义匹配准确率
LLaVA‑13B	22%	31%
InstructBLIP‑7B	28%	38%
Gemini‑1‑Pro	44%	52%
Gemini‑3‑Pro (best)	48%	55%

性能差距：即使是顶级 LVLM 仍未达到人类水平的表现（在同一套数据上约为 95%）。
领域差异：物理和化学问题的下降幅度最大，可能是因为它们高度依赖于解释多个图表或实验设置。
消融洞察：去除任意单张图像会导致准确率下降约 12‑15%，这表明模型确实需要融合信息，而不是仅凭单一视觉线索进行猜测。
推理对齐：生成中间推理步骤的模型（例如链式思考提示）可获得约 4% 的绝对提升，表明显式推理有帮助，但仍不足以达到理想水平。

Practical Implications

Productivity Tools: 开发用于科学研究的 AI 助手（实验室笔记本、教育平台）的开发者应预料到当前的 LVLM 可能会遗漏关键的跨图像线索，导致建议不完整或错误。
Safety‑Critical Systems: 在医学影像或工业检测等领域，决策常常依赖于关联多个扫描（例如 MRI 切片、前后对比照片）。OMIBench 强调，若仅依赖现成的 LVLM，缺乏额外验证层可能存在风险。
Fine‑Tuning Strategies: 标注的推理过程提供了一个现成的课程，可用于监督微调或基于人类反馈的强化学习（RLHF），专注于多图像推理。
Benchmark‑Driven Development: 企业可以将 OMIBench 作为回归测试套件，用于跟踪视觉语言流水线的改进，确保新模型发布真正提升多图像理解能力。
API Design: 在通过 API 暴露 LVLM 能力时，提供显式的“多图像上下文”标记或允许开发者提供图像顺序元数据，可帮助模型更有效地分配注意力。

限制与未来工作

奥林匹克题目范围：虽然奥林匹克题目具有挑战性，但它们只代表了现实任务的狭窄切片；将基准扩展到工业案例研究（例如多摄像头监控）将提升相关性。
图像数量：大多数项目涉及两三张图像；扩展到更大规模的集合（数十张卫星瓦片、视频帧）可能会暴露出额外的瓶颈。
评估对 LLM 判断的依赖：语义匹配依赖于单独的 LLM，可能引入偏差；未来工作可以为部分答案加入人工验证。
模型架构：本研究聚焦于基于 transformer 的 LVLM；探索混合架构（例如对图像嵌入进行图结构推理）可能实现更好的多图像融合。
训练数据缺口：作者指出，许多公开的 LVLM 预训练语料库中多图像示例很少，暗示需要为预训练（而非仅微调）准备精心策划的多图像数据集。

通过聚焦这些空白，OMIBench 为下一代真正能够“看到全局”的视觉语言模型奠定了基础。

作者

Qiguang Chen
Chengyu Luan
Jiajun Wu
Qiming Yu
Yi Yang
Yizhuo Li
Jingqi Tong
Xiachong Feng
Libo Qin
Wanxiang Che

论文信息

arXiv ID: 2604.20806v1
分类: cs.CV, cs.AI, cs.CL
发表时间: 2026年4月22日
PDF: 下载 PDF

[Paper] OMIBench：大型视觉语言模型中奥林匹克水平多图像推理的基准测试

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] GiVA：梯度感知基用于基于向量的适应

[Paper] TingIS：企业规模下从噪声客户事件中实时发现风险事件