[Paper] MMGR: 多模态生成推理

发布: (2025年12月17日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2512.14691v1

概述

该论文 MMGR: Multi‑Modal Generative Reasoning 提出了一种新方法,用于测试视频和图像生成模型是否仅仅外观好看——它们还应遵守物理、逻辑和空间约束。通过引入一个衡量五项核心推理能力的基准,作者揭示了当今“基础”生成模型中隐藏的性能差距。

关键贡献

  • MMGR 评估框架 – 一个统一的基准,评估生成式推理的五个维度:物理、逻辑、3‑D 空间、2‑D 空间和时间。
  • 跨域测试套件 – 三个不同领域(抽象推理、具身导航、物理常识),精心设计的任务,需要在视频和图像输出中实现整体正确性。
  • 细粒度指标 – 除了感知评分如 FVD,作者定义了准确性风格的指标,要求全局状态一致性和因果正确性。
  • 全面模型审计 – 系统评估领先的视频模型(Veo‑3、Sora‑2、Wan‑2.2)和图像模型(Nano‑banana、Nano‑banana Pro、GPT‑4o‑image、Qwen‑image)。
  • 诊断性洞察 – 分析当前模型失败的原因(过度依赖视觉合理性、长期规划薄弱、状态跟踪受限)。

方法论

  1. 推理分类 – 作者将推理细分为五种能力:

    • 物理:遵守重力、碰撞、材料属性。
    • 逻辑:因果链、基于规则的推断。
    • 3‑D 空间:在三维世界中的导航、物体放置。
    • 2‑D 空间:单一图像平面上的布局一致性。
    • 时间:在时间维度上保持连贯状态。
  2. 领域构建

    • 抽象推理:如 ARC‑AGI 和数独等任务,模型必须生成正确的解答网格。
    • 具身导航:代理必须在真实的 3‑D 环境中导航并定位自己,生成轨迹视频。
    • 物理常识:体育场景和组合交互,需要正确的物理(例如,球的弹跳)。
  3. 度量设计 – 对每个任务,基准计算一个 整体正确性得分(例如,最终数独网格是否满足所有约束?生成的视频是否遵守碰撞物理?)。这些得分为二元或百分比制,使其在不同模态间可比。

  4. 评估流程 – 模型被提示生成单张图像或短视频。输出会自动解析(例如,数独数字的 OCR,物理场景的姿态估计),并送入推理检查。

结果与发现

领域最佳模型物理逻辑3D 空间2D 空间时间
抽象推理 (ARC‑AGI)– (所有模型)< 5 %< 10 %N/AN/AN/A
具身导航Sora‑238 %22 %31 %45 %27 %
物理常识(体育)Nano‑banana Pro71 %64 %58 %73 %66 %
  • 物理常识 是最强的领域,但即使是最佳模型也在约30 %的物理检查中失败。
  • 抽象推理 是几乎为零的成功区间;模型很少生成逻辑上有效的解答。
  • 导航任务中的长时程空间规划 显示出最大的下降,表明全局状态跟踪能力薄弱。
  • 整体而言,视觉质量指标(例如 FVD)仍然很高,证实当前的训练目标更倾向于奖励“看起来对”,而不是“行为正确”。

实际意义

  • 安全关键生成 – 对于仿真训练、自动驾驶场景生成或虚拟世界构建等应用,仅依赖感知指标可能产生不安全或误导性的内容。MMGR 强调在部署前需要进行具备推理意识的检查。
  • 提示工程 – 开发者可以利用基准测试的失效模式来设计更好的提示,或在流水线中加入外部推理模块(例如物理引擎、符号求解器)。
  • 模型选择 – 在为需要一致性的任务(如游戏关卡设计、教学视频合成)选择生成模型时,MMGR 分数比单纯的 FVD 更能真实反映模型的适用性。
  • 评估工具 – 开源的 MMGR 套件可以集成到 CI 流水线中,自动标记违反基本物理或逻辑约束的生成资产。

限制与未来工作

  • 任务范围 – 虽然这三个领域覆盖了广泛的范围,但仍然遗漏了某些推理类型(例如社交互动、语言落地)。
  • 自动评分可靠性 – 某些指标依赖下游检测器(OCR、姿态估计),这些检测器可能会引入噪声,尤其是在低分辨率输出上。
  • 模型无关提示 – 基准假设统一的提示接口;将其适配到 API 差异巨大的模型可能需要额外的工程工作。
  • 未来方向 – 作者建议将 MMGR 扩展到多智能体场景,集成可微分物理模拟器以实现更紧密的训练循环,并探索直接优化推理指标的基于课程的微调。

作者

  • Zefan Cai
  • Haoyi Qiu
  • Tianyi Ma
  • Haozhe Zhao
  • Gengze Zhou
  • Kung‑Hsiang Huang
  • Parisa Kordjamshidi
  • Minjia Zhang
  • Xiao Wen
  • Jiuxiang Gu
  • Nanyun Peng
  • Junjie Hu

论文信息

  • arXiv ID: 2512.14691v1
  • Categories: cs.CL, cs.CV
  • Published: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »