[Paper] Do-Undo:在视觉语言模型中生成与逆转物理动作
发布: (2025年12月16日 GMT+8 02:03)
8 min read
原文: arXiv
Source: arXiv - 2512.13609v1
Overview
本文介绍了 Do‑Undo,一个新基准,旨在推动视觉语言模型(VLM)在图像中模拟一次物理动作,然后逆转该动作,模拟现实世界的因果关系。通过关注可逆的、符合物理规律的变换,而不是简单的对象替换,作者揭示了当前多模态 AI 的盲点,并为实现更具具身性和推理能力的系统开辟了道路。
关键贡献
- Do‑Undo 任务定义 – 一个两步挑战(执行一个动作,然后撤销它),需要真实的物理推理。
- 大规模可逆动作数据集 – 从真实世界视频中策划,涵盖日常操作(例如“把杯子从桌子上推下去”,“打开抽屉”,“折叠衬衫”)。
- 基于一致性的训练方案 – 强制模型的“执行”和“撤销”预测相互一致,提升动作在视觉空间中的落地。
- 全面评估 – 使用最先进的视觉语言模型(例如基于 CLIP 的扩散模型、Flamingo)进行基线实验,展示了在可逆动作上的显著性能差距。
- 基准发布 – 开源代码、数据和评估脚本,以促进社区在物理感知生成建模方面的进展。
方法论
- 数据收集 – 作者从公开可用的视频数据集(例如 EPIC‑Kitchens、Something‑Else)中挖掘,并提取出单一、明确的动作在几秒内可以完成并撤销的短片段。每个片段配有两帧静止图像:动作前和动作后。
- 动作标注 – 人工标注员提供简洁的自然语言描述(“捡起红色杯子”“关闭笔记本电脑”),并标记逆向动作(“放下红色杯子”“打开笔记本电脑”)。
- 模型架构 – 一个统一的编码器‑解码器 VLM 被训练,使其接受源图像加动作提示并生成目标图像。随后将生成的图像与逆向提示一起输入同一网络,以重建原始图像。
- 一致性损失 – 除了标准的重建损失和对抗损失外,还加入循环一致性项,惩罚原始输入与两次变换后输出之间的差异,促使模型学习可逆的物理过程,而不是记忆像素级编辑。
- 评估指标 – 基准报告包括 (a) 像素级相似度(SSIM、LPIPS),(b) 语义对齐度(CLIP‑score),以及 (c) 新提出的Physical Reversibility Score,用于衡量撤销步骤在恢复物体身份和场景布局方面的效果。
结果与发现
- 基线差距 – 即使是最强大的基于扩散的 VLM,也只能达到物理可逆性得分约 45 %,相较于人类表现,表明当前模型在物理推理方面存在根本性限制。
- 一致性有帮助 – 添加循环一致性损失使可逆性提升约 12 %(绝对值),证实强制双向约束能够产生更扎实的表征。
- 动作复杂度重要 – 简单的平移动作(如“滑动一本书”)处理得相对不错,而涉及变形或遮挡的动作(如“折叠衬衫”“倒水”)错误率最高,凸显了对更好物理建模的需求。
- 跨模态迁移 – 在 Do‑Undo 上训练的模型在下游任务(如模拟机器人中的指令遵循)上表现更佳,在桌面操作基准测试中取得更高的成功率。
实际意义
- 机器人与具身 AI – 能够预测动作结果并通过“撤销”来验证的视觉语言模型为机器人学习提供了自然的自监督信号,降低了对昂贵的真实世界试错的依赖。
- 交互式内容创作 – 设计师可以使用自然语言指令(如“在桌子上添加一个咖啡杯”),并立即看到可逆的编辑,从而实现 UI/UX 原型或游戏环境的快速迭代。
- 安全关键仿真 – 在自动驾驶或工业自动化等领域,能够模拟并恢复物理变化有助于场景测试和故障分析。
- 具物理感知的生成模型 – 该基准推动生成式 AI 尊重守恒定律,为更真实的视频合成、增强现实叠加和数字孪生打开了大门。
限制与未来工作
- 数据集偏差 – 精选的动作主要集中在室内、家庭场景;扩展到室外、多代理或高速动态仍是一个未解决的挑战。
- 分辨率限制 – 当前实验在 256×256 像素下进行;扩展到高分辨率、写实场景可能会出现新的失效模式。
- 显式物理集成 – 作者指出,纯数据驱动的 VLM 仍缺乏内部物理引擎;未来工作可以将神经模型与可微分模拟器结合,或加入以对象为中心的表征。
- 对未见动作的泛化 – 虽然循环一致性提升了鲁棒性,但模型仍在处理新动词或复合动作时表现不佳,表明需要更丰富的语言落地。
Do‑Undo 因此构建了一个有吸引力的测试平台,用于下一代真正理解“我做了什么会发生什么——以及如何撤销”的多模态 AI。
作者
- Shweta Mahajan
- Shreya Kadambi
- Hoang Le
- Munawar Hayat
- Fatih Porikli
论文信息
- arXiv ID: 2512.13609v1
- 类别: cs.CV, cs.LG
- 发布时间: 2025年12月15日
- PDF: 下载 PDF