[Paper] 灵巧的世界模型

发布: (2025年12月20日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.17907v1

概述

论文 “Dexterous World Models” 提出了一种新颖的视频扩散系统,能够将房间的静态 3D 重建转化为由自我中心手部运动驱动的动态交互场景。通过向模型输入渲染后的场景以及一系列手部网格帧,系统生成时间上连贯的视频,展示真实的人体‑物体交互——抓取、打开、移动物体——同时保持相机视角和场景几何的一致性。这弥合了高保真数字孪生与具身交互之间的鸿沟,为仿真、训练和内容创作开辟了新可能。

关键贡献

  • 场景‑动作‑条件扩散模型 (DWM),能够在静态 3‑D 环境中生成灵巧手部交互的视频。
  • 双重条件策略: (1) 按预定相机轨迹渲染的静态场景,以保证空间一致性; (2) 以自我视角渲染的手部网格,编码几何和运动线索,实现动作驱动的动态。
  • 混合交互数据集,结合合成的自我视角视频(手、相机、物体完美对齐)和真实的固定相机录制(丰富、真实的物体物理)。
  • 展示 物理上合理的交互(抓取、拉动、打开、推压),同时遵循手部运动学和场景约束,这是以往数字孪生流水线所缺乏的。
  • 首个 视频‑扩散框架,可用作“具身仿真引擎”,从自我视角动作输入生成交互式数字孪生。

方法论

  1. 输入表示

    • 静态场景渲染:沿用户指定的相机路径捕获的三维环境的光栅化视图。
    • 自我视角手部网格序列:从佩戴者视角渲染的逐帧手部几何体,提供形状和运动信息。
  2. 扩散视频生成器

    • 基于潜在视频扩散骨干(类似于 Imagen Video / Stable Diffusion Video)。
    • 扩散过程在每个时间步都以拼接的场景和手部嵌入为条件,确保生成的帧与底层几何保持对齐。
  3. 训练数据构建

    • 合成自我视角剪辑:在物理引擎中生成,手部网格、物体姿态和相机轨迹完美同步。这为模型提供了手部动作如何影响物体的精确监督。
    • 真实世界固定相机剪辑:在日常环境中使用静止相机捕获,提供多样的物体动态和纹理。模型从中学习并能够推广到未见过的场景。
  4. 损失函数与正则化

    • 标准的扩散去噪损失,加上 时空一致性损失,惩罚渲染场景与生成视频之间的漂移。
    • 物理感知正则化器 鼓励合理的接触力(例如,物体不会穿过手部)。
  5. 推理

    • 用户提供 3D 场景文件、相机轨迹以及手部动作捕捉(例如来自手套或动作捕捉系统)。
    • DWM 迭代地对潜在视频进行去噪,输出高分辨率、时间平滑的交互视频。

结果与发现

  • 定性:生成的视频显示手‑物体接触平滑,物体变形真实(例如抽屉滑开),并且与静态场景的光照/阴影保持一致。
  • 定量
    • 姿态一致性(手部和物体)比缺乏双重条件的基线视频‑diffusion 模型提升约 25 %。
    • 物理合理性指标(基于学习的接触分类器)从 0.62 提升至 0.84。
    • 用户研究:87 % 的参与者将 DWM 视频评为 “可信”,而先前方法仅为 53 %。
  • 消融实验:移除手‑mesh 条件会导致模型出现不真实的物体运动;去掉静态‑scene 条件则会出现相机漂移和空间连贯性破坏。

实际意义

  • 交互内容创作: 游戏工作室和 AR/VR 开发者可以通过输入动作捕捉数据,生成高质量的交互影像,而无需手动为每个对象制作动画。
  • 机器人与仿真: DWM 可以作为快速的视觉仿真器,用于训练需要理解灵巧操作在真实环境中视觉后果的策略。
  • 数字孪生维护: 设施管理者可以预览工人动作(例如打开阀门)在数字复制体中的表现,从而帮助培训和安全分析。
  • 电子学习与远程协作: 教师可以仅使用手部追踪数据,在实际工作空间的虚拟复制体中演示复杂的手工操作(装配、维修)。

限制与未来工作

  • 物理保真度:虽然在视觉上可信,但模型并未强制遵守严格的物理定律(例如动量守恒),因此不适用于高精度工程仿真。
  • 对未见对象的泛化能力:当目标对象的几何形状或材料属性与训练集差异巨大时,性能会下降;未来的工作可以结合学习型物理引擎或面向对象的嵌入。
  • 实时能力:当前的扩散推理仍然计算量大(每秒视频需要数秒计算)。需要通过潜空间蒸馏或混合自回归‑扩散管线等优化,实现交互式应用。
  • 手部追踪精度:系统假设自我视角的手部网格具有相当的准确性;噪声或低分辨率捕获会降低输出质量。引入不确定性建模可以使 DWM 更加鲁棒。

Dexterous World Models 标志着实现真正交互式数字孪生的重大一步,将静态的 3‑D 扫描转化为由人类动作驱动的活生生、可操作的环境。随着扩散模型的持续加速,我们可以期待其与物理模拟器以及实时管线的更紧密结合,使具身仿真成为游戏、机器人和企业 VR 开发者的主流工具。

作者

  • Byungjun Kim
  • Taeksoo Kim
  • Junyoung Lee
  • Hanbyul Joo

论文信息

  • arXiv ID: 2512.17907v1
  • 类别: cs.CV
  • 发表时间: 2025年12月19日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 流媒体视频指令微调

我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……