[Paper] Multimodal RewardBench 2：评估用于交错文本和图像的 Omni Reward Models

发布: 1个月前 (2025年12月19日 GMT+8 02:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16899v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文介绍了 Multimodal RewardBench 2 (MMRB2)，这是首个大规模基准，用于评估奖励模型（RMs）在涉及交错文本和图像数据的任务上的表现。作者为四种真实的多模态场景各提供了 1,000 对专家策划的偏好对，向社区提供了一种具体的方法来衡量“全能”模型在判断混合语言和视觉的生成内容质量方面的能力。

关键贡献

一个涵盖文本到图像生成、图像编辑、交叉生成和多模态推理的综合多模态基准。
23 个最先进的模型和代理 提供响应，形成多样化的候选输出池。
专家标注的偏好对（每个任务 1 k 对），共识度高，通过集成过滤管道创建，以确保高质量的真实标签。
对现有评审器的广泛评估，包括 LLM‑as‑a‑judge 和微调奖励模型，揭示当前性能差距。
相关性分析 表明，较高的 MMRB2 分数可以预测在 Best‑of‑N 采样设置中更好的下游表现。
开源基线（Qwen3‑VL‑32B）其准确度可匹配商业 Gemini 2.5 Flash 模型，为未来研究奠定坚实的参考点。

方法论

Task Design – 作者挑选了四个开发者实际会遇到的代表性多模态用例：
- Text‑to‑Image：根据文本提示生成图像。
- Image Editing：根据文本指令修改已有图像。
- Interleaved Generation：交替生成文本和图像片段（例如带截图的教程）。
- Multimodal Reasoning：回答需要“用图像思考”的问题。
Response Collection – 对每个提示，使用 21 个源任务生成来自 23 种不同模型的输出（包括 Gemini 3 Pro、GPT‑5 等闭源巨头以及开源的 Qwen3‑VL）。
Preference Pair Creation – 人类专家对模型输出的成对进行比较并选出更好的一个。为降低标注工作量，先进行 ensemble filtering 步骤，剔除明显劣势的候选，仅保留最具竞争力的配对供专家评审。
Judge Evaluation – 基准用于测试多种评判者：
- LLM‑as‑a‑judge（例如 Gemini 3 Pro、GPT‑5）。
- Fine‑tuned multimodal reward models，在人工偏好数据上进行微调。
Correlation Study – 作者测量了评判者在 MMRB2 上的准确率与 Best‑of‑N 采样成功率之间的关联程度（即从一组候选中挑选得分最高的输出的效果）。

结果与发现

模型（评审）	MMRB2 上的准确率（任务平均）
Gemini 3 Pro（最新）	75‑80 %
GPT‑5 / Gemini 2.5 Pro	66‑75 %
Gemini 4 o（广泛使用）	≈59 %
人类专家	>90 %
开源 Qwen3‑VL‑32B	≈64 %（与 Gemini 2.5 Flash 持平）

人类共识仍是黄金标准，以舒适的优势超越最佳商业评审模型。
开源模型正在迎头赶上；Qwen3‑VL‑32B 表明，在没有专有数据的情况下也能实现强大的多模态奖励性能。
MMRB2 的表现与下游 Best‑of‑N 成功率高度相关（ρ ≈ 0.78），验证了该基准的预测价值。
错误分析指出了三个薄弱环节： (1) 细微的视觉编辑， (2) 长程交错一致性， (3) 需要文本‑图像联合推理的推理能力。

实际意义

Model‑as‑a‑Judge pipelines: 开发生成式助理（例如 AI 驱动的设计工具、嵌入图像的聊天机器人）的开发者现在可以接入在 MMRB2 上评估的奖励模型，以可靠地对候选输出进行排序，然后再呈现给用户。
Fine‑tuning data selection: 基准的偏好对可以作为高质量的训练数据，用于定制奖励模型，尤其是针对医学影像或电商产品视觉等细分领域。
Benchmark‑driven development: 企业可以将新多模态大语言模型与 MMRB2 进行基准测试，以量化进展，类似于 GLUE 和 MMLU 成为纯文本模型的标准。
Open‑source competitiveness: Qwen3‑VL‑32B 的强劲表现表明，初创公司无需庞大的专有数据集即可构建有用的多模态奖励模型，从而降低了 AI 增强产品的进入门槛。
Best‑of‑N sampling strategies: 由于 MMRB2 分数能够预测下游质量，开发者可以安全地采用“生成多样本后排序”的工作流，减少对昂贵人工后期编辑的需求。

限制与未来工作

模态范围：该基准专注于静态图像；视频、音频或 3‑D 数据未被覆盖。
提示多样性：虽然提示被设定为“实用”，但仍是经过筛选的；真实用户输入可能更嘈杂或更含糊。
人工标注成本：获取专家共识费用高昂，限制了在新任务或新领域上的快速迭代。
模型偏见：偏好对反映了标注者的文化和审美偏见，可能影响下游应用的公平性。

未来的研究方向包括将 MMRB2 扩展到动态媒体（例如文本到视频），使用半监督方法自动化偏好对生成的部分环节，以及研究多模态奖励模型的去偏技术。

作者

Yushi Hu
Reyhane Askari-Hemmat
Melissa Hall
Emily Dinan
Luke Zettlemoyer
Marjan Ghazvininejad

论文信息

arXiv ID: 2512.16899v1
分类: cs.CL, cs.CV
发表时间: 2025年12月18日
PDF: 下载 PDF

[Paper] Multimodal RewardBench 2：评估用于交错文本和图像的 Omni Reward Models

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VTCBench：视觉语言模型能否通过视觉-文本压缩理解长上下文？

[Paper] TimeLens：重新思考视频时序定位与多模态 LLMs

[Paper] MMGR: 多模态生成推理

[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建