[Paper] DeVI：基于物理的灵巧人-物交互通过合成视频模仿

发布: 1天前 (2026年4月23日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.20841v1

概述

本文介绍了 DeVI（Dexterous Video Imitation），一个将文本条件的合成人‑物交互视频转化为具备物理可行性的灵巧机器人手控制策略的框架。通过弥合 2‑D 生成视频线索与 3‑D 物理仿真之间的差距，DeVI 实现了对复杂操作的零样本模仿——这是传统动作捕捉流水线难以捕获的。

关键贡献

视频优先的模仿管线：仅使用合成视频（无需 3‑D 动作捕捉）作为示例数据，以学习灵巧的手‑物体控制。
混合跟踪奖励：将 3‑D 人体姿态跟踪与鲁棒的 2‑D 物体跟踪相结合，以弥补生成视频在物理真实性方面的不足。
零样本泛化：仅通过文本提示处理先前未见过的物体和交互类型，消除任务特定示例收集的需求。
实证优势：在细粒度手‑物体接触建模方面，优于依赖高质量 3‑D 示例的最新方法。
可扩展至多物体场景和多样动作：展示单一视频驱动的规划器能够编排涉及多个物体和多种操作动词的复杂序列。

方法论

合成视频生成 – 使用文本到视频扩散模型（例如 Stable Diffusion Video），输入对所需操作的自然语言描述（例如 “拿起一个红色的杯子”）。模型会输出一段短小、逼真的剪辑，展示人手与目标物体的交互。
3‑D 人体姿态提取 – 采用现成的姿态估计器（例如 VIBE、SMPL‑X）从每帧视频中恢复粗略的 3‑D 骨架，从而得到手部关节的粗略轨迹。
2‑D 目标追踪 – 使用专用的目标追踪器（例如 SiamMask）在整个剪辑中跟踪目标物体的像素掩码，得到密集的 2‑D 轨迹，能够降低深度误差的影响。
混合追踪奖励 – 在物理模拟器中的强化学习过程中，智能体获得的奖励同时惩罚偏离 3‑D 关节轨迹和 2‑D 目标掩码轨迹的行为。2‑D 项在 3‑D 姿态噪声较大时提供校正信号。
策略学习 – 使用无模型强化学习算法（例如 PPO）优化灵巧手的控制策略，以最大化混合奖励并遵守物理约束（接触力、关节限制）。无需显式的逆向运动学或轨迹平滑。

整个流水线实现全自动化：用户编写文本指令，系统生成视频，提取追踪线索，并训练可部署在模拟或真实机器人手上的控制策略。

结果与发现

指标	DeVI 与 3‑D‑Demo 基线对比	观察
对未见物体的成功率（例如，新颖的杯子、工具）	+23 % 绝对提升	视频驱动的线索捕捉到细微的手‑物体接触模式，而 3‑D 演示未能捕获。
接触保真度（平均渗透深度）	‑0.4 mm（更低）	混合奖励降低了相互渗透，导致更逼真的抓取。
多物体任务完成率（挑选‑放置‑堆叠）	+18 % 成功率提升	2‑D 物体追踪器帮助在物体切换时保持一致性。
训练效率（实际时钟小时）	与基线相当	无额外数据收集开销；视频生成成本低且可并行。

从定性上看，使用 DeVI 学习的策略表现出平滑的指关节运动、恰当的手腕方向以及自适应的抓取力，这些都与合成视频中看到的动作相吻合，即使目标物体在形状或纹理上与训练集不同。

实际意义

快速原型化操作技能 – 工程师只需用一句话指定新任务，即可获得可直接运行的策略，无需耗时的动作捕捉会话。
可扩展的数据集创建 – 合成视频生成器可以生成几乎无限多样的 HOI（人‑物体交互）片段，为机器人灵巧度提供持续改进的循环。
跨域迁移 – 由于策略在带有物理约束的仿真中学习，得到的控制器可以在真实硬件上进行少量领域随机化的微调，加速在商业机器人手（如 Shadow Dexterous Hand、Allegro）上的部署。
增强的人机协作 – 需要预测或模仿人类动作的系统（如协作装配、远程操作辅助）可以利用相同的视频管线，从视觉线索推断合理的手部轨迹。
成本降低 – 消除对昂贵动作捕捉装置、高速摄像机和人工标注流水线的需求，使先进的灵巧操作对预算有限的初创公司和研究实验室也可获得。

限制与未来工作

生成视频的物理真实性 – 当前扩散模型并不能保证准确的深度或接触物理，这仍可能在混合奖励中引入偏差。
仿真到真实的差距 – 虽然作者报告了有前景的仿真结果，但将学习到的策略转移到真实硬件上可能需要额外的校准和安全检查。
受训练数据限制的对象多样性 – 视频生成器的对象目录受限于预训练期间见过的内容；真正新颖的类别可能会产生不真实的片段。
强化学习训练的计算成本 – 虽然数据收集成本低廉，但策略优化仍然需要大量 GPU/CPU 资源来处理每个新任务。

未来的方向包括整合物理感知的视频生成（例如，以模拟动力学为条件），利用少样本真实世界微调，以及将框架扩展到全身操作场景（例如，使用双手或加入躯干运动）。

作者

Hyeonwoo Kim
Jeonghwan Kim
Kyungwon Cho
Hanbyul Joo

论文信息

arXiv ID: 2604.20841v1
类别: cs.CV
发表时间: 2026年4月22日
PDF: 下载 PDF

[Paper] DeVI：基于物理的灵巧人-物交互通过合成视频模仿

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中