[Paper] Multimodal RewardBench 2:评估用于交错文本和图像的 Omni Reward Models
Source: arXiv - 2512.16899v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
概述
本文介绍了 Multimodal RewardBench 2 (MMRB2),这是首个大规模基准,用于评估奖励模型(RMs)在涉及 交错 文本和图像数据的任务上的表现。作者为四种真实的多模态场景各提供了 1,000 对专家策划的偏好对,向社区提供了一种具体的方法来衡量“全能”模型在判断混合语言和视觉的生成内容质量方面的能力。
关键贡献
- 一个涵盖文本到图像生成、图像编辑、交叉生成和多模态推理的综合多模态基准。
- 23 个最先进的模型和代理 提供响应,形成多样化的候选输出池。
- 专家标注的偏好对(每个任务 1 k 对),共识度高,通过集成过滤管道创建,以确保高质量的真实标签。
- 对现有评审器的广泛评估,包括 LLM‑as‑a‑judge 和微调奖励模型,揭示当前性能差距。
- 相关性分析 表明,较高的 MMRB2 分数可以预测在 Best‑of‑N 采样设置中更好的下游表现。
- 开源基线(Qwen3‑VL‑32B)其准确度可匹配商业 Gemini 2.5 Flash 模型,为未来研究奠定坚实的参考点。
方法论
-
Task Design – 作者挑选了四个开发者实际会遇到的代表性多模态用例:
- Text‑to‑Image:根据文本提示生成图像。
- Image Editing:根据文本指令修改已有图像。
- Interleaved Generation:交替生成文本和图像片段(例如带截图的教程)。
- Multimodal Reasoning:回答需要“用图像思考”的问题。
-
Response Collection – 对每个提示,使用 21 个源任务生成来自 23 种不同模型的输出(包括 Gemini 3 Pro、GPT‑5 等闭源巨头以及开源的 Qwen3‑VL)。
-
Preference Pair Creation – 人类专家对模型输出的成对进行比较并选出更好的一个。为降低标注工作量,先进行 ensemble filtering 步骤,剔除明显劣势的候选,仅保留最具竞争力的配对供专家评审。
-
Judge Evaluation – 基准用于测试多种评判者:
- LLM‑as‑a‑judge(例如 Gemini 3 Pro、GPT‑5)。
- Fine‑tuned multimodal reward models,在人工偏好数据上进行微调。
-
Correlation Study – 作者测量了评判者在 MMRB2 上的准确率与 Best‑of‑N 采样成功率之间的关联程度(即从一组候选中挑选得分最高的输出的效果)。
结果与发现
| 模型(评审) | MMRB2 上的准确率(任务平均) |
|---|---|
| Gemini 3 Pro(最新) | 75‑80 % |
| GPT‑5 / Gemini 2.5 Pro | 66‑75 % |
| Gemini 4 o(广泛使用) | ≈59 % |
| 人类专家 | >90 % |
| 开源 Qwen3‑VL‑32B | ≈64 %(与 Gemini 2.5 Flash 持平) |
- 人类共识仍是黄金标准,以舒适的优势超越最佳商业评审模型。
- 开源模型正在迎头赶上;Qwen3‑VL‑32B 表明,在没有专有数据的情况下也能实现强大的多模态奖励性能。
- MMRB2 的表现与下游 Best‑of‑N 成功率高度相关(ρ ≈ 0.78),验证了该基准的预测价值。
- 错误分析指出了三个薄弱环节: (1) 细微的视觉编辑, (2) 长程交错一致性, (3) 需要文本‑图像联合推理的推理能力。
实际意义
- Model‑as‑a‑Judge pipelines: 开发生成式助理(例如 AI 驱动的设计工具、嵌入图像的聊天机器人)的开发者现在可以接入在 MMRB2 上评估的奖励模型,以可靠地对候选输出进行排序,然后再呈现给用户。
- Fine‑tuning data selection: 基准的偏好对可以作为高质量的训练数据,用于定制奖励模型,尤其是针对医学影像或电商产品视觉等细分领域。
- Benchmark‑driven development: 企业可以将新多模态大语言模型与 MMRB2 进行基准测试,以量化进展,类似于 GLUE 和 MMLU 成为纯文本模型的标准。
- Open‑source competitiveness: Qwen3‑VL‑32B 的强劲表现表明,初创公司无需庞大的专有数据集即可构建有用的多模态奖励模型,从而降低了 AI 增强产品的进入门槛。
- Best‑of‑N sampling strategies: 由于 MMRB2 分数能够预测下游质量,开发者可以安全地采用“生成多样本后排序”的工作流,减少对昂贵人工后期编辑的需求。
限制与未来工作
- 模态范围:该基准专注于静态图像;视频、音频或 3‑D 数据未被覆盖。
- 提示多样性:虽然提示被设定为“实用”,但仍是经过筛选的;真实用户输入可能更嘈杂或更含糊。
- 人工标注成本:获取专家共识费用高昂,限制了在新任务或新领域上的快速迭代。
- 模型偏见:偏好对反映了标注者的文化和审美偏见,可能影响下游应用的公平性。
未来的研究方向包括将 MMRB2 扩展到动态媒体(例如文本到视频),使用半监督方法自动化偏好对生成的部分环节,以及研究多模态奖励模型的去偏技术。
作者
- Yushi Hu
- Reyhane Askari-Hemmat
- Melissa Hall
- Emily Dinan
- Luke Zettlemoyer
- Marjan Ghazvininejad
论文信息
- arXiv ID: 2512.16899v1
- 分类: cs.CL, cs.CV
- 发表时间: 2025年12月18日
- PDF: 下载 PDF