[Paper] OMIBench:大型视觉语言模型中奥林匹克水平多图像推理的基准测试

发布: (2026年4月23日 GMT+8 01:37)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.20806v1

概述

本文介绍了 OMIBench,这是一项新基准,旨在推动大型视觉语言模型(LVLMs)在 multiple 图像上进行推理——这一能力类似于科学家通过整合多幅图表、图形或实验照片的证据来解决奥林匹克水平的问题。通过聚焦多图像情境,作者揭示了现有评估中的盲点——这些评估大多只测试单图像理解。

关键贡献

  • 多图像推理基准:策划了 1,200 多道奥林匹克风格的题目,涵盖生物、化学、数学和物理,需要综合两张或更多图像中的信息。
  • 人工标注的推理过程:每个问题都附有逐步解释,便于对模型推理路径进行细粒度分析。
  • 双重评估协议:提供精确匹配评分和语义匹配评分(使用基于大语言模型的答案等价性),以捕捉细微的正确性。
  • 全面的 LVLM 评估:对从开源 LLaVA‑13B 到专有 Gemini‑3‑Pro 的广泛模型进行基准测试,显示即使是最强系统也仅能达到约 50% 的上限。
  • 开源发布:数据集、标注文件和评估脚本均公开,可鼓励社区驱动的改进。

方法论

  1. 问题收集 – 作者挖掘过去的奥林匹克考试并挑选出解答明确引用多个视觉工件(例如化学反应图加显微镜图像)的题目。
  2. 标注流程 – 领域专家撰写详细的推理过程,标记哪张图像提供了哪部分证据。这些推理既作为真实标签,也作为未来微调的训练信号。
  3. 提示设计 – 对每个测试项,模型接收一个包含所有相关图像(编码为视觉标记)和文本问题的拼接提示。没有额外的“图像索引”提示,迫使模型自主发现跨图像关联。
  4. 评分
    • 精确匹配:模型的文本答案与金标准答案逐字比较。
    • 语义匹配:使用大型语言模型(GPT‑4)判断答案是否传达相同的科学结论,容忍改写。
  5. 基线实验 – 作者评估了 12 种 LVLM,测量整体准确率和各领域表现,并进行消融研究(例如去除一张图像)以量化多图像上下文的贡献。

结果与发现

Model精确匹配准确率语义匹配准确率
LLaVA‑13B22%31%
InstructBLIP‑7B28%38%
Gemini‑1‑Pro44%52%
Gemini‑3‑Pro (best)48%55%
  • 性能差距:即使是顶级 LVLM 仍未达到人类水平的表现(在同一套数据上约为 95%)。
  • 领域差异:物理和化学问题的下降幅度最大,可能是因为它们高度依赖于解释多个图表或实验设置。
  • 消融洞察:去除任意单张图像会导致准确率下降约 12‑15%,这表明模型确实需要融合信息,而不是仅凭单一视觉线索进行猜测。
  • 推理对齐:生成中间推理步骤的模型(例如链式思考提示)可获得约 4% 的绝对提升,表明显式推理有帮助,但仍不足以达到理想水平。

Practical Implications

  • Productivity Tools: 开发用于科学研究的 AI 助手(实验室笔记本、教育平台)的开发者应预料到当前的 LVLM 可能会遗漏关键的跨图像线索,导致建议不完整或错误。
  • Safety‑Critical Systems: 在医学影像或工业检测等领域,决策常常依赖于关联多个扫描(例如 MRI 切片、前后对比照片)。OMIBench 强调,若仅依赖现成的 LVLM,缺乏额外验证层可能存在风险。
  • Fine‑Tuning Strategies: 标注的推理过程提供了一个现成的课程,可用于监督微调或基于人类反馈的强化学习(RLHF),专注于多图像推理。
  • Benchmark‑Driven Development: 企业可以将 OMIBench 作为回归测试套件,用于跟踪视觉语言流水线的改进,确保新模型发布真正提升多图像理解能力。
  • API Design: 在通过 API 暴露 LVLM 能力时,提供显式的“多图像上下文”标记或允许开发者提供图像顺序元数据,可帮助模型更有效地分配注意力。

限制与未来工作

  • 奥林匹克题目范围:虽然奥林匹克题目具有挑战性,但它们只代表了现实任务的狭窄切片;将基准扩展到工业案例研究(例如多摄像头监控)将提升相关性。
  • 图像数量:大多数项目涉及两三张图像;扩展到更大规模的集合(数十张卫星瓦片、视频帧)可能会暴露出额外的瓶颈。
  • 评估对 LLM 判断的依赖:语义匹配依赖于单独的 LLM,可能引入偏差;未来工作可以为部分答案加入人工验证。
  • 模型架构:本研究聚焦于基于 transformer 的 LVLM;探索混合架构(例如对图像嵌入进行图结构推理)可能实现更好的多图像融合。
  • 训练数据缺口:作者指出,许多公开的 LVLM 预训练语料库中多图像示例很少,暗示需要为预训练(而非仅微调)准备精心策划的多图像数据集。

通过聚焦这些空白,OMIBench 为下一代真正能够“看到全局”的视觉语言模型奠定了基础。

作者

  • Qiguang Chen
  • Chengyu Luan
  • Jiajun Wu
  • Qiming Yu
  • Yi Yang
  • Yizhuo Li
  • Jingqi Tong
  • Xiachong Feng
  • Libo Qin
  • Wanxiang Che

论文信息

  • arXiv ID: 2604.20806v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发表时间: 2026年4月22日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »