[Paper] MMGR: 多模态生成推理
发布: (2025年12月17日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2512.14691v1
概述
该论文 MMGR: Multi‑Modal Generative Reasoning 提出了一种新方法,用于测试视频和图像生成模型是否仅仅外观好看——它们还应遵守物理、逻辑和空间约束。通过引入一个衡量五项核心推理能力的基准,作者揭示了当今“基础”生成模型中隐藏的性能差距。
关键贡献
- MMGR 评估框架 – 一个统一的基准,评估生成式推理的五个维度:物理、逻辑、3‑D 空间、2‑D 空间和时间。
- 跨域测试套件 – 三个不同领域(抽象推理、具身导航、物理常识),精心设计的任务,需要在视频和图像输出中实现整体正确性。
- 细粒度指标 – 除了感知评分如 FVD,作者定义了准确性风格的指标,要求全局状态一致性和因果正确性。
- 全面模型审计 – 系统评估领先的视频模型(Veo‑3、Sora‑2、Wan‑2.2)和图像模型(Nano‑banana、Nano‑banana Pro、GPT‑4o‑image、Qwen‑image)。
- 诊断性洞察 – 分析当前模型失败的原因(过度依赖视觉合理性、长期规划薄弱、状态跟踪受限)。
方法论
-
推理分类 – 作者将推理细分为五种能力:
- 物理:遵守重力、碰撞、材料属性。
- 逻辑:因果链、基于规则的推断。
- 3‑D 空间:在三维世界中的导航、物体放置。
- 2‑D 空间:单一图像平面上的布局一致性。
- 时间:在时间维度上保持连贯状态。
-
领域构建 –
- 抽象推理:如 ARC‑AGI 和数独等任务,模型必须生成正确的解答网格。
- 具身导航:代理必须在真实的 3‑D 环境中导航并定位自己,生成轨迹视频。
- 物理常识:体育场景和组合交互,需要正确的物理(例如,球的弹跳)。
-
度量设计 – 对每个任务,基准计算一个 整体正确性得分(例如,最终数独网格是否满足所有约束?生成的视频是否遵守碰撞物理?)。这些得分为二元或百分比制,使其在不同模态间可比。
-
评估流程 – 模型被提示生成单张图像或短视频。输出会自动解析(例如,数独数字的 OCR,物理场景的姿态估计),并送入推理检查。
结果与发现
| 领域 | 最佳模型 | 物理 | 逻辑 | 3D 空间 | 2D 空间 | 时间 |
|---|---|---|---|---|---|---|
| 抽象推理 (ARC‑AGI) | – (所有模型) | < 5 % | < 10 % | N/A | N/A | N/A |
| 具身导航 | Sora‑2 | 38 % | 22 % | 31 % | 45 % | 27 % |
| 物理常识(体育) | Nano‑banana Pro | 71 % | 64 % | 58 % | 73 % | 66 % |
- 物理常识 是最强的领域,但即使是最佳模型也在约30 %的物理检查中失败。
- 抽象推理 是几乎为零的成功区间;模型很少生成逻辑上有效的解答。
- 导航任务中的长时程空间规划 显示出最大的下降,表明全局状态跟踪能力薄弱。
- 整体而言,视觉质量指标(例如 FVD)仍然很高,证实当前的训练目标更倾向于奖励“看起来对”,而不是“行为正确”。
实际意义
- 安全关键生成 – 对于仿真训练、自动驾驶场景生成或虚拟世界构建等应用,仅依赖感知指标可能产生不安全或误导性的内容。MMGR 强调在部署前需要进行具备推理意识的检查。
- 提示工程 – 开发者可以利用基准测试的失效模式来设计更好的提示,或在流水线中加入外部推理模块(例如物理引擎、符号求解器)。
- 模型选择 – 在为需要一致性的任务(如游戏关卡设计、教学视频合成)选择生成模型时,MMGR 分数比单纯的 FVD 更能真实反映模型的适用性。
- 评估工具 – 开源的 MMGR 套件可以集成到 CI 流水线中,自动标记违反基本物理或逻辑约束的生成资产。
限制与未来工作
- 任务范围 – 虽然这三个领域覆盖了广泛的范围,但仍然遗漏了某些推理类型(例如社交互动、语言落地)。
- 自动评分可靠性 – 某些指标依赖下游检测器(OCR、姿态估计),这些检测器可能会引入噪声,尤其是在低分辨率输出上。
- 模型无关提示 – 基准假设统一的提示接口;将其适配到 API 差异巨大的模型可能需要额外的工程工作。
- 未来方向 – 作者建议将 MMGR 扩展到多智能体场景,集成可微分物理模拟器以实现更紧密的训练循环,并探索直接优化推理指标的基于课程的微调。
作者
- Zefan Cai
- Haoyi Qiu
- Tianyi Ma
- Haozhe Zhao
- Gengze Zhou
- Kung‑Hsiang Huang
- Parisa Kordjamshidi
- Minjia Zhang
- Xiao Wen
- Jiuxiang Gu
- Nanyun Peng
- Junjie Hu
论文信息
- arXiv ID: 2512.14691v1
- Categories: cs.CL, cs.CV
- Published: 2025年12月16日
- PDF: 下载 PDF