[Paper] Multimodal RewardBench 2:评估用于交错文本和图像的 Omni Reward Models

发布: (2025年12月19日 GMT+8 02:56)
7 min read
原文: arXiv

Source: arXiv - 2512.16899v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

概述

本文介绍了 Multimodal RewardBench 2 (MMRB2),这是首个大规模基准,用于评估奖励模型(RMs)在涉及 交错 文本和图像数据的任务上的表现。作者为四种真实的多模态场景各提供了 1,000 对专家策划的偏好对,向社区提供了一种具体的方法来衡量“全能”模型在判断混合语言和视觉的生成内容质量方面的能力。

关键贡献

  • 一个涵盖文本到图像生成、图像编辑、交叉生成和多模态推理的综合多模态基准。
  • 23 个最先进的模型和代理 提供响应,形成多样化的候选输出池。
  • 专家标注的偏好对(每个任务 1 k 对),共识度高,通过集成过滤管道创建,以确保高质量的真实标签。
  • 对现有评审器的广泛评估,包括 LLM‑as‑a‑judge 和微调奖励模型,揭示当前性能差距。
  • 相关性分析 表明,较高的 MMRB2 分数可以预测在 Best‑of‑N 采样设置中更好的下游表现。
  • 开源基线(Qwen3‑VL‑32B)其准确度可匹配商业 Gemini 2.5 Flash 模型,为未来研究奠定坚实的参考点。

方法论

  1. Task Design – 作者挑选了四个开发者实际会遇到的代表性多模态用例:

    • Text‑to‑Image:根据文本提示生成图像。
    • Image Editing:根据文本指令修改已有图像。
    • Interleaved Generation:交替生成文本和图像片段(例如带截图的教程)。
    • Multimodal Reasoning:回答需要“用图像思考”的问题。
  2. Response Collection – 对每个提示,使用 21 个源任务生成来自 23 种不同模型的输出(包括 Gemini 3 Pro、GPT‑5 等闭源巨头以及开源的 Qwen3‑VL)。

  3. Preference Pair Creation – 人类专家对模型输出的成对进行比较并选出更好的一个。为降低标注工作量,先进行 ensemble filtering 步骤,剔除明显劣势的候选,仅保留最具竞争力的配对供专家评审。

  4. Judge Evaluation – 基准用于测试多种评判者:

    • LLM‑as‑a‑judge(例如 Gemini 3 Pro、GPT‑5)。
    • Fine‑tuned multimodal reward models,在人工偏好数据上进行微调。
  5. Correlation Study – 作者测量了评判者在 MMRB2 上的准确率与 Best‑of‑N 采样成功率之间的关联程度(即从一组候选中挑选得分最高的输出的效果)。

结果与发现

模型(评审)MMRB2 上的准确率(任务平均)
Gemini 3 Pro(最新)75‑80 %
GPT‑5 / Gemini 2.5 Pro66‑75 %
Gemini 4 o(广泛使用)≈59 %
人类专家>90 %
开源 Qwen3‑VL‑32B≈64 %(与 Gemini 2.5 Flash 持平)
  • 人类共识仍是黄金标准,以舒适的优势超越最佳商业评审模型。
  • 开源模型正在迎头赶上;Qwen3‑VL‑32B 表明,在没有专有数据的情况下也能实现强大的多模态奖励性能。
  • MMRB2 的表现与下游 Best‑of‑N 成功率高度相关(ρ ≈ 0.78),验证了该基准的预测价值。
  • 错误分析指出了三个薄弱环节: (1) 细微的视觉编辑, (2) 长程交错一致性, (3) 需要文本‑图像联合推理的推理能力。

实际意义

  • Model‑as‑a‑Judge pipelines: 开发生成式助理(例如 AI 驱动的设计工具、嵌入图像的聊天机器人)的开发者现在可以接入在 MMRB2 上评估的奖励模型,以可靠地对候选输出进行排序,然后再呈现给用户。
  • Fine‑tuning data selection: 基准的偏好对可以作为高质量的训练数据,用于定制奖励模型,尤其是针对医学影像或电商产品视觉等细分领域。
  • Benchmark‑driven development: 企业可以将新多模态大语言模型与 MMRB2 进行基准测试,以量化进展,类似于 GLUE 和 MMLU 成为纯文本模型的标准。
  • Open‑source competitiveness: Qwen3‑VL‑32B 的强劲表现表明,初创公司无需庞大的专有数据集即可构建有用的多模态奖励模型,从而降低了 AI 增强产品的进入门槛。
  • Best‑of‑N sampling strategies: 由于 MMRB2 分数能够预测下游质量,开发者可以安全地采用“生成多样本后排序”的工作流,减少对昂贵人工后期编辑的需求。

限制与未来工作

  • 模态范围:该基准专注于静态图像;视频、音频或 3‑D 数据未被覆盖。
  • 提示多样性:虽然提示被设定为“实用”,但仍是经过筛选的;真实用户输入可能更嘈杂或更含糊。
  • 人工标注成本:获取专家共识费用高昂,限制了在新任务或新领域上的快速迭代。
  • 模型偏见:偏好对反映了标注者的文化和审美偏见,可能影响下游应用的公平性。

未来的研究方向包括将 MMRB2 扩展到动态媒体(例如文本到视频),使用半监督方法自动化偏好对生成的部分环节,以及研究多模态奖励模型的去偏技术。

作者

  • Yushi Hu
  • Reyhane Askari-Hemmat
  • Melissa Hall
  • Emily Dinan
  • Luke Zettlemoyer
  • Marjan Ghazvininejad

论文信息

  • arXiv ID: 2512.16899v1
  • 分类: cs.CL, cs.CV
  • 发表时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] MMGR: 多模态生成推理

Video foundation models 生成视觉上逼真且时间上连贯的内容,但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …