[Paper] 灵巧的世界模型

发布: 1个月前 (2025年12月20日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.17907v1

概述

论文 “Dexterous World Models” 提出了一种新颖的视频扩散系统，能够将房间的静态 3D 重建转化为由自我中心手部运动驱动的动态交互场景。通过向模型输入渲染后的场景以及一系列手部网格帧，系统生成时间上连贯的视频，展示真实的人体‑物体交互——抓取、打开、移动物体——同时保持相机视角和场景几何的一致性。这弥合了高保真数字孪生与具身交互之间的鸿沟，为仿真、训练和内容创作开辟了新可能。

关键贡献

场景‑动作‑条件扩散模型 (DWM)，能够在静态 3‑D 环境中生成灵巧手部交互的视频。
双重条件策略： (1) 按预定相机轨迹渲染的静态场景，以保证空间一致性； (2) 以自我视角渲染的手部网格，编码几何和运动线索，实现动作驱动的动态。
混合交互数据集，结合合成的自我视角视频（手、相机、物体完美对齐）和真实的固定相机录制（丰富、真实的物体物理）。
展示 物理上合理的交互（抓取、拉动、打开、推压），同时遵循手部运动学和场景约束，这是以往数字孪生流水线所缺乏的。
首个 视频‑扩散框架，可用作“具身仿真引擎”，从自我视角动作输入生成交互式数字孪生。

方法论

输入表示
- 静态场景渲染：沿用户指定的相机路径捕获的三维环境的光栅化视图。
- 自我视角手部网格序列：从佩戴者视角渲染的逐帧手部几何体，提供形状和运动信息。
扩散视频生成器
- 基于潜在视频扩散骨干（类似于 Imagen Video / Stable Diffusion Video）。
- 扩散过程在每个时间步都以拼接的场景和手部嵌入为条件，确保生成的帧与底层几何保持对齐。
训练数据构建
- 合成自我视角剪辑：在物理引擎中生成，手部网格、物体姿态和相机轨迹完美同步。这为模型提供了手部动作如何影响物体的精确监督。
- 真实世界固定相机剪辑：在日常环境中使用静止相机捕获，提供多样的物体动态和纹理。模型从中学习并能够推广到未见过的场景。
损失函数与正则化
- 标准的扩散去噪损失，加上 时空一致性损失，惩罚渲染场景与生成视频之间的漂移。
- 物理感知正则化器 鼓励合理的接触力（例如，物体不会穿过手部）。
推理
- 用户提供 3D 场景文件、相机轨迹以及手部动作捕捉（例如来自手套或动作捕捉系统）。
- DWM 迭代地对潜在视频进行去噪，输出高分辨率、时间平滑的交互视频。

结果与发现

定性：生成的视频显示手‑物体接触平滑，物体变形真实（例如抽屉滑开），并且与静态场景的光照/阴影保持一致。
定量：
- 姿态一致性（手部和物体）比缺乏双重条件的基线视频‑diffusion 模型提升约 25 %。
- 物理合理性指标（基于学习的接触分类器）从 0.62 提升至 0.84。
- 用户研究：87 % 的参与者将 DWM 视频评为 “可信”，而先前方法仅为 53 %。
消融实验：移除手‑mesh 条件会导致模型出现不真实的物体运动；去掉静态‑scene 条件则会出现相机漂移和空间连贯性破坏。

实际意义

交互内容创作: 游戏工作室和 AR/VR 开发者可以通过输入动作捕捉数据，生成高质量的交互影像，而无需手动为每个对象制作动画。
机器人与仿真: DWM 可以作为快速的视觉仿真器，用于训练需要理解灵巧操作在真实环境中视觉后果的策略。
数字孪生维护: 设施管理者可以预览工人动作（例如打开阀门）在数字复制体中的表现，从而帮助培训和安全分析。
电子学习与远程协作: 教师可以仅使用手部追踪数据，在实际工作空间的虚拟复制体中演示复杂的手工操作（装配、维修）。

限制与未来工作

物理保真度：虽然在视觉上可信，但模型并未强制遵守严格的物理定律（例如动量守恒），因此不适用于高精度工程仿真。
对未见对象的泛化能力：当目标对象的几何形状或材料属性与训练集差异巨大时，性能会下降；未来的工作可以结合学习型物理引擎或面向对象的嵌入。
实时能力：当前的扩散推理仍然计算量大（每秒视频需要数秒计算）。需要通过潜空间蒸馏或混合自回归‑扩散管线等优化，实现交互式应用。
手部追踪精度：系统假设自我视角的手部网格具有相当的准确性；噪声或低分辨率捕获会降低输出质量。引入不确定性建模可以使 DWM 更加鲁棒。

Dexterous World Models 标志着实现真正交互式数字孪生的重大一步，将静态的 3‑D 扫描转化为由人类动作驱动的活生生、可操作的环境。随着扩散模型的持续加速，我们可以期待其与物理模拟器以及实时管线的更紧密结合，使具身仿真成为游戏、机器人和企业 VR 开发者的主流工具。

作者

Byungjun Kim
Taeksoo Kim
Junyoung Lee
Hanbyul Joo

论文信息

arXiv ID: 2512.17907v1
类别: cs.CV
发表时间: 2025年12月19日
PDF: 下载 PDF

[Paper] 灵巧的世界模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[论文] 用于多智能体交互序列建模的 Diffusion Forcing