[Paper] Do-Undo：在视觉语言模型中生成与逆转物理动作

发布: 3天前 (2025年12月16日 GMT+8 02:03)

8 min read

原文: arXiv

Source: arXiv - 2512.13609v1

Overview

本文介绍了 Do‑Undo，一个新基准，旨在推动视觉语言模型（VLM）在图像中模拟一次物理动作，然后逆转该动作，模拟现实世界的因果关系。通过关注可逆的、符合物理规律的变换，而不是简单的对象替换，作者揭示了当前多模态 AI 的盲点，并为实现更具具身性和推理能力的系统开辟了道路。

数据收集 – 作者从公开可用的视频数据集（例如 EPIC‑Kitchens、Something‑Else）中挖掘，并提取出单一、明确的动作在几秒内可以完成并撤销的短片段。每个片段配有两帧静止图像：动作前和动作后。
动作标注 – 人工标注员提供简洁的自然语言描述（“捡起红色杯子”“关闭笔记本电脑”），并标记逆向动作（“放下红色杯子”“打开笔记本电脑”）。
模型架构 – 一个统一的编码器‑解码器 VLM 被训练，使其接受源图像加动作提示并生成目标图像。随后将生成的图像与逆向提示一起输入同一网络，以重建原始图像。
一致性损失 – 除了标准的重建损失和对抗损失外，还加入循环一致性项，惩罚原始输入与两次变换后输出之间的差异，促使模型学习可逆的物理过程，而不是记忆像素级编辑。
评估指标 – 基准报告包括 (a) 像素级相似度（SSIM、LPIPS），(b) 语义对齐度（CLIP‑score），以及 (c) 新提出的Physical Reversibility Score，用于衡量撤销步骤在恢复物体身份和场景布局方面的效果。

基线差距 – 即使是最强大的基于扩散的 VLM，也只能达到物理可逆性得分约 45 %，相较于人类表现，表明当前模型在物理推理方面存在根本性限制。
一致性有帮助 – 添加循环一致性损失使可逆性提升约 12 %（绝对值），证实强制双向约束能够产生更扎实的表征。
动作复杂度重要 – 简单的平移动作（如“滑动一本书”）处理得相对不错，而涉及变形或遮挡的动作（如“折叠衬衫”“倒水”）错误率最高，凸显了对更好物理建模的需求。
跨模态迁移 – 在 Do‑Undo 上训练的模型在下游任务（如模拟机器人中的指令遵循）上表现更佳，在桌面操作基准测试中取得更高的成功率。

Do‑Undo 因此构建了一个有吸引力的测试平台，用于下一代真正理解“我做了什么会发生什么——以及如何撤销”的多模态 AI。