[论文] World Models 可利用人类视频实现灵巧操作
发布: (2025年12月16日 GMT+8 02:37)
8 min read
原文: arXiv
Source: arXiv - 2512.13644v1
概述
DexWM(Dexterous Manipulation World Model)是一个新的 AI 系统,学习预测手部——或机器人夹爪——与物体的交互方式,使用海量公开可用的视频。通过在 900 + 小时的人类和非灵巧机器人视频上进行训练,该模型能够预判细粒度手指动作的后果,实现零样本机器人操作,在抓取、放置和伸手等真实世界任务上超越最先进的策略。
关键贡献
- 跨域视频预训练: 利用大规模、异构的视频语料库(人手 + 简易机器人视频),克服灵巧操作数据集稀缺的问题。
- 手部潜在空间世界模型: 引入 DexWM,能够在给定过去的潜在状态和细粒度指尖动作的条件下预测场景的下一个潜在状态。
- 手部一致性辅助损失: 添加了一种新颖的损失函数,显式强制准确的手部姿态重建,提高了对细微指尖运动的预测保真度。
- 零样本迁移到真实机器人: 证明仅在视频上训练的模型即可部署在配备 Allegro 手的 Franka Panda 机械臂上,在一系列操作基准测试中相较 Diffusion Policy 提升超过 50%。
- 对多模态世界模型的基准评估: 显示出相较于以文本、导航指令或全身动作为条件的先前模型的更优性能。
方法论
- 数据收集与预处理 – 作者汇集了约 900 小时的视频,来源于两个渠道:(a) 以人为中心的手部剪辑(例如 YouTube 教程)和 (b) 机器人视频,这些视频涉及粗略的操作但没有灵巧的手指。对帧进行裁剪、归一化,并与任何可用的动作元数据(例如机器人剪辑的关节角度)配对。
- 潜在表征 – 卷积编码器将每帧映射到紧凑的潜在向量。该潜在空间在人类和机器人领域之间共享,使模型能够学习统一的“手‑物体交互”概念。
- 世界模型动态 – 循环网络(例如 GRU/LSTM)接受过去潜在状态序列和当前灵巧动作(30‑DOF 手指关节指令),预测下一个潜在状态。
- 辅助手部一致性损失 – 同时,解码器从预测的潜在状态重建手部姿态。该损失惩罚重建姿态与真实姿态(若可用)或运动学先验之间的差异,确保潜在动态保留细粒度的手指信息。
- 训练方案 – 模型端到端训练,使用加权和的 (i) 潜在预测损失,(ii) 手部一致性损失,和 (iii) 鼓励平滑动态的正则化项。未使用任务特定的监督(例如 “抓取‑放置”)。
- 零样本部署 – 推理时,机器人的控制器采样动作,将其输入 DexWM,并利用预测的未来潜在状态选择能够实现期望目标(例如物体达到目标姿态)的动作。这一过程无需对机器人进行任何额外微调。
结果与发现
| 任务 (Franka + Allegro) | Diffusion Policy(基线) | DexWM(zero‑shot) | 相对 ↑ |
|---|---|---|---|
| 抓取 | 38 % 成功 | 62 % | +64 % |
| 放置 | 34 % 成功 | 58 % | +71 % |
| 伸手 | 45 % 成功 | 71 % | +58 % |
| 平均 | 39 % | 63 % | +62 % |
- 预测准确性: 在未见过的视频序列上,DexWM 将潜在预测误差降低约 30 %,相较于仅预测视觉特征的先前世界模型。
- 泛化能力: 该模型成功处理了未见过的物体、新颖的手‑物体接触以及训练期间从未出现的任务,验证了所学习潜在动力学的强大能力。
- 消融实验: 移除手部一致性损失会导致操作成功率下降约 15 %,凸显其在细粒度控制中的重要性。
实际意义
- 机器人技能的快速原型化: 开发者现在可以在公开可得的视频上训练操作模型,避免传统上需要仪器化机器人运行的昂贵数据收集流程。
- 跨平台迁移: 由于潜在空间对底层硬件保持中立,同一 DexWM 模型可以在不同的机器人手臂或手部设计之间以最小的适配进行复用。
- 提升仿真到真实的迁移: 世界模型方法直接在潜在空间中预测未来状态,可集成到基于模型的强化学习回路中,或作为实时控制器中的安全“前瞻”使用。
- 混合现实遥操作的潜力: 人类操作员可以在视频中演示任务;DexWM 将推断出底层的指尖动作并生成机器人指令,从而实现直观的技能共享。
限制与未来工作
- 依赖姿态标注: 手部一致性损失受益于准确的手部姿态数据,但在野外视频中并不总是可得;要扩展到完全未标注的素材可能需要自监督姿态估计。
- 实时控制中的延迟: 在嵌入式硬件上以高频率(>30 Hz)运行编码器‑循环‑解码器管线仍是一个挑战;优化推理速度是一个未解决的工程问题。
- 对高度动态接触的泛化: 未覆盖极快或冲击强烈的交互(例如敲击);将模型扩展至处理高频接触动力学是一个有前景的方向。
- 多对象场景: 当前实验聚焦于单对象操作;要扩展到有遮挡的杂乱环境,可能需要更丰富的场景表示或注意力机制。
DexWM 表明,大量现成视频可以转化为用于灵巧机器人手的强大世界模型,为开发者提供了一条实用路径,使机器人能够具备细粒度的操作能力,而无需传统的数据收集瓶颈。
作者
- Raktim Gautam Goswami
- Amir Bar
- David Fan
- Tsung-Yen Yang
- Gaoyue Zhou
- Prashanth Krishnamurthy
- Michael Rabbat
- Farshad Khorrami
- Yann LeCun
论文信息
- arXiv ID: 2512.13644v1
- Categories: cs.RO, cs.AI, cs.CV
- Published: 2025年12月15日
- PDF: Download PDF