[Paper] Do-Undo:在视觉语言模型中生成与逆转物理动作

发布: (2025年12月16日 GMT+8 02:03)
8 min read
原文: arXiv

Source: arXiv - 2512.13609v1

Overview

本文介绍了 Do‑Undo,一个新基准,旨在推动视觉语言模型(VLM)在图像中模拟一次物理动作,然后逆转该动作,模拟现实世界的因果关系。通过关注可逆的、符合物理规律的变换,而不是简单的对象替换,作者揭示了当前多模态 AI 的盲点,并为实现更具具身性和推理能力的系统开辟了道路。

关键贡献

  • Do‑Undo 任务定义 – 一个两步挑战(执行一个动作,然后撤销它),需要真实的物理推理。
  • 大规模可逆动作数据集 – 从真实世界视频中策划,涵盖日常操作(例如“把杯子从桌子上推下去”,“打开抽屉”,“折叠衬衫”)。
  • 基于一致性的训练方案 – 强制模型的“执行”和“撤销”预测相互一致,提升动作在视觉空间中的落地。
  • 全面评估 – 使用最先进的视觉语言模型(例如基于 CLIP 的扩散模型、Flamingo)进行基线实验,展示了在可逆动作上的显著性能差距。
  • 基准发布 – 开源代码、数据和评估脚本,以促进社区在物理感知生成建模方面的进展。

方法论

  1. 数据收集 – 作者从公开可用的视频数据集(例如 EPIC‑Kitchens、Something‑Else)中挖掘,并提取出单一、明确的动作在几秒内可以完成并撤销的短片段。每个片段配有两帧静止图像:动作前动作后
  2. 动作标注 – 人工标注员提供简洁的自然语言描述(“捡起红色杯子”“关闭笔记本电脑”),并标记逆向动作(“放下红色杯子”“打开笔记本电脑”)。
  3. 模型架构 – 一个统一的编码器‑解码器 VLM 被训练,使其接受源图像动作提示并生成目标图像。随后将生成的图像与逆向提示一起输入同一网络,以重建原始图像。
  4. 一致性损失 – 除了标准的重建损失和对抗损失外,还加入循环一致性项,惩罚原始输入与两次变换后输出之间的差异,促使模型学习可逆的物理过程,而不是记忆像素级编辑。
  5. 评估指标 – 基准报告包括 (a) 像素级相似度(SSIM、LPIPS),(b) 语义对齐度(CLIP‑score),以及 (c) 新提出的Physical Reversibility Score,用于衡量撤销步骤在恢复物体身份和场景布局方面的效果。

结果与发现

  • 基线差距 – 即使是最强大的基于扩散的 VLM,也只能达到物理可逆性得分约 45 %,相较于人类表现,表明当前模型在物理推理方面存在根本性限制。
  • 一致性有帮助 – 添加循环一致性损失使可逆性提升约 12 %(绝对值),证实强制双向约束能够产生更扎实的表征。
  • 动作复杂度重要 – 简单的平移动作(如“滑动一本书”)处理得相对不错,而涉及变形或遮挡的动作(如“折叠衬衫”“倒水”)错误率最高,凸显了对更好物理建模的需求。
  • 跨模态迁移 – 在 Do‑Undo 上训练的模型在下游任务(如模拟机器人中的指令遵循)上表现更佳,在桌面操作基准测试中取得更高的成功率。

实际意义

  • 机器人与具身 AI – 能够预测动作结果并通过“撤销”来验证的视觉语言模型为机器人学习提供了自然的自监督信号,降低了对昂贵的真实世界试错的依赖。
  • 交互式内容创作 – 设计师可以使用自然语言指令(如“在桌子上添加一个咖啡杯”),并立即看到可逆的编辑,从而实现 UI/UX 原型或游戏环境的快速迭代。
  • 安全关键仿真 – 在自动驾驶或工业自动化等领域,能够模拟并恢复物理变化有助于场景测试和故障分析。
  • 具物理感知的生成模型 – 该基准推动生成式 AI 尊重守恒定律,为更真实的视频合成、增强现实叠加和数字孪生打开了大门。

限制与未来工作

  • 数据集偏差 – 精选的动作主要集中在室内、家庭场景;扩展到室外、多代理或高速动态仍是一个未解决的挑战。
  • 分辨率限制 – 当前实验在 256×256 像素下进行;扩展到高分辨率、写实场景可能会出现新的失效模式。
  • 显式物理集成 – 作者指出,纯数据驱动的 VLM 仍缺乏内部物理引擎;未来工作可以将神经模型与可微分模拟器结合,或加入以对象为中心的表征。
  • 对未见动作的泛化 – 虽然循环一致性提升了鲁棒性,但模型仍在处理新动词或复合动作时表现不佳,表明需要更丰富的语言落地。

Do‑Undo 因此构建了一个有吸引力的测试平台,用于下一代真正理解“我做了什么会发生什么——以及如何撤销”的多模态 AI。

作者

  • Shweta Mahajan
  • Shreya Kadambi
  • Hoang Le
  • Munawar Hayat
  • Fatih Porikli

论文信息

  • arXiv ID: 2512.13609v1
  • 类别: cs.CV, cs.LG
  • 发布时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »