[Paper] MMGR: 多模态生成推理

发布: 1个月前 (2025年12月17日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.14691v1

概述

该论文 MMGR: Multi‑Modal Generative Reasoning 提出了一种新方法，用于测试视频和图像生成模型是否仅仅外观好看——它们还应遵守物理、逻辑和空间约束。通过引入一个衡量五项核心推理能力的基准，作者揭示了当今“基础”生成模型中隐藏的性能差距。

关键贡献

MMGR 评估框架 – 一个统一的基准，评估生成式推理的五个维度：物理、逻辑、3‑D 空间、2‑D 空间和时间。
跨域测试套件 – 三个不同领域（抽象推理、具身导航、物理常识），精心设计的任务，需要在视频和图像输出中实现整体正确性。
细粒度指标 – 除了感知评分如 FVD，作者定义了准确性风格的指标，要求全局状态一致性和因果正确性。
全面模型审计 – 系统评估领先的视频模型（Veo‑3、Sora‑2、Wan‑2.2）和图像模型（Nano‑banana、Nano‑banana Pro、GPT‑4o‑image、Qwen‑image）。
诊断性洞察 – 分析当前模型失败的原因（过度依赖视觉合理性、长期规划薄弱、状态跟踪受限）。

方法论

推理分类 – 作者将推理细分为五种能力：
- 物理：遵守重力、碰撞、材料属性。
- 逻辑：因果链、基于规则的推断。
- 3‑D 空间：在三维世界中的导航、物体放置。
- 2‑D 空间：单一图像平面上的布局一致性。
- 时间：在时间维度上保持连贯状态。
领域构建 –
- 抽象推理：如 ARC‑AGI 和数独等任务，模型必须生成正确的解答网格。
- 具身导航：代理必须在真实的 3‑D 环境中导航并定位自己，生成轨迹视频。
- 物理常识：体育场景和组合交互，需要正确的物理（例如，球的弹跳）。
度量设计 – 对每个任务，基准计算一个 整体正确性得分（例如，最终数独网格是否满足所有约束？生成的视频是否遵守碰撞物理？）。这些得分为二元或百分比制，使其在不同模态间可比。
评估流程 – 模型被提示生成单张图像或短视频。输出会自动解析（例如，数独数字的 OCR，物理场景的姿态估计），并送入推理检查。

结果与发现

领域	最佳模型	物理	逻辑	3D 空间	2D 空间	时间
抽象推理 (ARC‑AGI)	– (所有模型)	< 5 %	< 10 %	N/A	N/A	N/A
具身导航	Sora‑2	38 %	22 %	31 %	45 %	27 %
物理常识（体育）	Nano‑banana Pro	71 %	64 %	58 %	73 %	66 %

物理常识 是最强的领域，但即使是最佳模型也在约30 %的物理检查中失败。
抽象推理 是几乎为零的成功区间；模型很少生成逻辑上有效的解答。
导航任务中的长时程空间规划 显示出最大的下降，表明全局状态跟踪能力薄弱。
整体而言，视觉质量指标（例如 FVD）仍然很高，证实当前的训练目标更倾向于奖励“看起来对”，而不是“行为正确”。

实际意义

安全关键生成 – 对于仿真训练、自动驾驶场景生成或虚拟世界构建等应用，仅依赖感知指标可能产生不安全或误导性的内容。MMGR 强调在部署前需要进行具备推理意识的检查。
提示工程 – 开发者可以利用基准测试的失效模式来设计更好的提示，或在流水线中加入外部推理模块（例如物理引擎、符号求解器）。
模型选择 – 在为需要一致性的任务（如游戏关卡设计、教学视频合成）选择生成模型时，MMGR 分数比单纯的 FVD 更能真实反映模型的适用性。
评估工具 – 开源的 MMGR 套件可以集成到 CI 流水线中，自动标记违反基本物理或逻辑约束的生成资产。

限制与未来工作

任务范围 – 虽然这三个领域覆盖了广泛的范围，但仍然遗漏了某些推理类型（例如社交互动、语言落地）。
自动评分可靠性 – 某些指标依赖下游检测器（OCR、姿态估计），这些检测器可能会引入噪声，尤其是在低分辨率输出上。
模型无关提示 – 基准假设统一的提示接口；将其适配到 API 差异巨大的模型可能需要额外的工程工作。
未来方向 – 作者建议将 MMGR 扩展到多智能体场景，集成可微分物理模拟器以实现更紧密的训练循环，并探索直接优化推理指标的基于课程的微调。

作者

Zefan Cai
Haoyi Qiu
Tianyi Ma
Haozhe Zhao
Gengze Zhou
Kung‑Hsiang Huang
Parisa Kordjamshidi
Minjia Zhang
Xiao Wen
Jiuxiang Gu
Nanyun Peng
Junjie Hu

论文信息

arXiv ID: 2512.14691v1
Categories: cs.CL, cs.CV
Published: 2025年12月16日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Multimodal RewardBench 2：评估用于交错文本和图像的 Omni Reward Models

奖励模型（RMs）对于训练大型语言模型（LLMs）至关重要，但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。

[Paper] VTCBench：视觉语言模型能否通过视觉-文本压缩理解长上下文？

与扩展 LLMs 的 context window 相关的计算和内存开销严重限制了它们的可扩展性。一个值得注意的解决方案是 vision-te…

[Paper] TimeLens：重新思考视频时序定位与多模态 LLMs

本论文并未提出新方法，而是为视频时间定位（VTG）建立了一个直接、渐进且必不可少的基线，……

[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建

本文介绍了 JMMMU‑Pro，一个基于图像的日语多学科多模态理解基准，以及 Vibe Benchmark Construction，一个可扩展的…