[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建

发布: (2025年12月17日 GMT+8 01:33)
6 min read
原文: arXiv

Source: arXiv - 2512.14620v1

概述

本文提出了 JMMMU‑Pro,一种新基准,用于测试视觉语言模型(VLM)在问题直接嵌入图像时对日语内容的理解程度。通过将视觉场景与文本提示合并,该基准迫使模型进行真正的多模态推理,而不是将文本和图像视为独立输入。作者还引入了 Vibe Benchmark Construction,这是一套低成本流水线,利用最先进的图像生成器(Nano Banana Pro)并结合人工验证,以大规模创建高质量、多样化的视觉问答对。

关键贡献

  • JMMMU‑Pro 数据集:通过将日文问题文本嵌入图像,扩展了早期的 JMMMU 基准,构建了更具挑战性的视觉‑文本融合任务。
  • Vibe 基准构建流水线:一种可扩展的“人‑在‑循环”工作流,利用生成式 AI 生成候选图像,然后通过提示微调和人工验证进行细化。
  • 综合评估:显示当前开源的大型多模态模型(LMM)在 JMMMU‑Pro 上表现不佳,凸显了日语多模态理解的不足。
  • 开源资源:发布数据集、生成脚本和提示模板,以便社区复现和扩展该基准。

方法论

  1. Prompt‑driven image generation: 作者编写日语提示,描述视觉场景 并且 将问题(例如“汽车的颜色是什么?”)直接嵌入图像中。Nano Banana Pro 是一种能够渲染清晰日文字符的扩散模型,为每个提示生成多个候选图像。
  2. Human verification loop: 标注员检查每幅生成的图像的视觉保真度、嵌入文本的可读性以及问题与场景的相关性。如果图像不合格,则调整提示(例如更改字体大小、布局或场景细节)并重新生成。
  3. Dataset assembly: 通过验证的图像与原始问题及一组选项配对,形成经典的 VQA 格式,但模型必须先在图片中定位并读取问题后才能作答。
  4. Benchmarking: 使用一套开源 LMM(如 LLaVA、MiniGPT‑4 等)在 JMMMU‑Pro 上进行评估,采用标准的 VQA 准确率指标。

该流程刻意保持模块化:任何能够嵌入清晰日文文本的图像生成器都可以替代 Nano Banana Pro,验证步骤也可以众包或半自动化。

结果与发现

  • 性能差距:所有测试的开源 LMM 在准确率上均 低于 30 %,远低于它们在以英语为中心的 VQA 基准上的表现。
  • 错误分析:最大的失效模式是 (a) 未能读取或误读嵌入的日文问题,和 (b) 缺乏回答学科特定问题(如历史、科学)所需的文化或领域知识。
  • 成本效率:使用 Vibe Benchmark Construction,作者构建了一个包含 10k 项的基准,成本约为 2,000 美元,仅为传统数据收集成本的一小部分。

这些发现确认当前模型尚未准备好用于真实世界的日语多模态应用,并且该基准是对未来研究的有用压力测试。

实际意义

  • 产品本地化:为日本市场构建 AI 助手的公司需要确保其 VLM 能够读取并推理屏幕上的文本——这一能力由 JMMMU‑Pro 直接衡量。
  • 文档 AI:自动表单处理、收据扫描或教育工具等应用常常涉及视觉与文本线索的混合;该基准突显了联合感知的重要性。
  • 开源模型开发:研究者可以使用 Vibe 流程快速生成其他语言或领域的多模态数据集,加速在无需大量标注预算的情况下创建细分基准。
  • 评估标准:JMMMU‑Pro 可以成为在任何以日语为中心的产品部署 VLM 前的首选 sanity check,类似于 ImageNet 在视觉模型中的作用。

限制与未来工作

  • Scope of disciplines: 虽然数据集涵盖了许多学科,但仍倾向于学术风格的问题;现实世界的 UI 或路标场景代表性不足。
  • Human verification bottleneck: 当前的流水线依赖人工检查,这可能限制在真正大规模基准上的可扩展性。
  • Model diversity: 评估侧重于开源 LMM;未测试专有模型(例如 GPT‑4V),因此仍然不清楚最先进水平到底有多接近。
  • Future directions: 作者建议将 Vibe 扩展以生成 dynamic multimodal tasks(例如基于视频的 VQA),加入 automated OCR‑based validation,并探索 cross‑lingual transfer,即在英文 VQA 上训练的模型在 JMMMU‑Pro 上进行微调。

作者

  • Atsuyuki Miyai
  • Shota Onohara
  • Jeonghun Baek
  • Kiyoharu Aizawa

论文信息

  • arXiv ID: 2512.14620v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 发布时间: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »