[Paper] RoboMirror: 先理解再模仿——从视频到类人机器人行走

发布: (2025年12月30日 GMT+8 01:59)
8 min read
原文: arXiv

Source: arXiv - 2512.23649v1

概述

RoboMirror 是一个开创性的框架,使类人机器人能够 直接从原始视频中学习行走和动作——无论是第一人称(自视)剪辑还是第三人称录制——而无需传统的动作捕捉重定向或文本到动作的中间步骤。通过将大规模视觉语言模型(VLM)与基于扩散的控制策略相结合,系统首先从视频中提取 视觉运动意图,随后生成在物理上合理、语义上对齐的行走动作。这弥合了视觉理解与机器人控制之间长期存在的鸿沟,为远程呈现、远程监督以及直观的机器人编程开辟了新途径。

关键贡献

  • 首个“先理解后模仿”视频到类人机器人管线,无需显式姿态重建和重定向。
  • 视觉语言意图蒸馏:使用预训练的 VLM 将原始视频流转换为紧凑的运动意图嵌入。
  • 基于扩散的运动策略:在意图嵌入的条件下,生成连续、物理一致的全身类人机器人的关节指令。
  • 实时远程呈现演示:可穿戴摄像头的第一人称视频驱动远程类人机器人,与传统第三人称管线相比,控制延迟降低约 80 %
  • 量化提升:在基准导航和避障场景中,任务成功率比最先进基线高出 3.7 %。
  • 开源实现(代码、预训练模型以及兼容 ROS 的驱动)已发布,以实现可复现性和社区扩展。

方法论

  1. 视频摄取 – 系统接受 30 fps 的自视角或第三人称 RGB 视频。无需深度或骨骼数据。
  2. 意图提取 – 大规模视觉语言模型(例如 CLIP‑ViT 或 BLIP)处理约 1 秒的短视频片段,并输出捕捉高层语义(如“向前走”“左转”“跨越障碍”)的 运动意图向量
  3. 扩散策略 – 条件扩散模型在大量模拟人形轨迹上进行训练,接受意图向量并迭代去噪潜在动作序列,生成符合机器人动力学和平衡约束的 关节扭矩指令
  4. 控制循环 – 生成的扭矩指令以 100 Hz 的频率流向机器人的低层控制器。轻量级反馈滤波器校正轻微漂移,但核心行为完全由视频衍生的意图驱动。
  5. 训练方案 – 扩散策略离线使用强化学习式奖励塑形(稳定性、脚步放置精度、任务完成)在物理仿真器(MuJoCo/IsaacGym)上进行训练。意图编码器保持冻结,利用预训练 VLM 的泛化能力。

结果与发现

指标RoboMirror基线(text‑to‑motion)基线(pose‑mimic)
控制延迟 (ms)120600540
任务成功率 (%)87.383.679.2
平均能耗 (J)1.121.281.31
定性真实感 (用户研究)4.6/53.9/53.5/5
  • 延迟降低: 通过消除姿态提取和重定向,端到端流水线运行时间约为 120 ms,实现了近实时遥操作。
  • 成功率更高: 基于意图的策略更好地遵循场景语义(例如“跨越”而不是“穿过”),使任务完成率提升了 3.7 %。
  • 能效提升: 更自然的动作减少了不必要的关节扭矩,节省电能——对电池供电的人形机器人至关重要。
  • 用户感知: 参与者评价 RoboMirror 的动作比基线更“类人”,且“控制直观”。

实际意义

  • Telepresence & Remote Work: 配备头戴摄像头的工作人员可以在危险或难以进入的环境(例如核电站、灾区)中控制类人机器人,延迟极低且无需专用动作捕捉装置。
  • Rapid Prototyping of Behaviors: 开发者只需通过短视频演示所需的运动方式,机器人即可复制,实现服务机器人应用的迭代周期大幅缩短。
  • Cross‑Domain Transfer: 由于意图编码器与语言无关,可通过更换 diffusion policy 的动力学模型,将同一流水线复用于不同机器人形态(如双足与四足)。
  • Reduced Engineering Overhead: 无需手工构建姿态重定向流水线或维护庞大的文本‑动作词表;系统利用现成的 VLM,且持续升级。
  • Integration with Existing Stacks: 已发布的 ROS 节点订阅 /camera/image_raw,并在 /humanoid_controller/command 上发布关节指令,可直接兼容大多数科研级类人平台(如 NASA Valkyrie、Boston Dynamics Atlas)。

限制与未来工作

  • 依赖 VLM 泛化能力: 当视频包含不寻常的视角或严重遮挡时,意图提取质量会下降;在特定领域数据上进行微调可能有所帮助。
  • 仿真到真实的差距: 虽然扩散策略在仿真中训练,但转移到硬件仍需对动力学参数进行仔细校准并进行安全检查。
  • 时间视野受限: 当前的意图向量仅概括约 1 秒的视频;更长期的规划(例如在复杂迷宫中导航)需要层次化的意图建模。
  • 向多机器人场景的可扩展性: 将该框架扩展至从单一视频流协调多个机器人仍是一个未解决的挑战。

RoboMirror 展示了 视觉理解可以成为类人步态的主要驱动因素,将范式从“复制姿势”转变为“解释意图”。随着 VLM 的持续进步,我们可以期待更丰富、更可靠的机器人行为,直接由我们每天捕获的视频驱动。

作者

  • Zhe Li
  • Cheng Chi
  • Yangyang Wei
  • Boan Zhu
  • Tao Huang
  • Zhenguo Sun
  • Yibo Peng
  • Pengwei Wang
  • Zhongyuan Wang
  • Fangzhou Liu
  • Chang Xu
  • Shanghang Zhang

论文信息

  • arXiv ID: 2512.23649v1
  • 类别: cs.RO, cs.CV
  • 发表时间: 2025年12月29日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……