[论文] AnchorDream:重新利用 Video Diffusion 用于具身感知的机器人数据合成

发布: (2025年12月13日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.11797v1

Overview

论文 AnchorDream 提出了一种通过复用现成视频扩散模型来生成大规模、高质量机器人演示数据的新方法。通过将扩散过程“锚定”在机器人实际运动的渲染上,该方法生成的视频能够遵循机器人的物理形体,使开发者能够在不需要昂贵真实数据采集的情况下训练模仿学习策略。

Key Contributions

  • 具身感知扩散:引入一种条件方案,将视频扩散与机器人运动学绑定,防止出现不现实的姿态或动作。
  • 少量演示的数据放大:将少量人工遥控轨迹转化为成千上万种多样、逼真的机器人‑环境视频。
  • 零显式环境建模:利用预训练的扩散模型(如 Stable Diffusion)合成真实感背景、物体和光照,无需手工构建模拟器。
  • 实证提升:在模拟基准上提升最高 36.4 %,在真实机器人任务中几乎实现 的性能提升(使用生成数据进行策略训练)。
  • 开源流水线:提供模块化实现,可直接接入现有的模仿学习框架(如 DAgger、BC、Diffusion‑Policy)。

Methodology

  1. 收集种子数据集 – 少量(≈ 10–50)人工遥控的机器人轨迹,每条轨迹配有机器人手臂/末端执行器运动的渲染视频。
  2. 渲染运动锚点 – 对每个时间步,将机器人的关节角度可视化为一个简单的 3‑D 网格叠加(即“锚点”),该锚点在扩散过程中保持不变。
  3. 条件扩散 – 预训练的文本到视频扩散模型接收两个输入:
    • 运动锚点帧(作为时空掩码)。
    • 可选的文本提示,描述期望的场景变化(例如 “厨房台面”、 “凌乱的书桌”)。
      扩散过程在保持锚点几何和运动的前提下,填充背景、物体和光照。
  4. 采样与过滤 – 生成成千上万段视频后,使用轻量分类器过滤,检查运动学一致性(如无自碰撞)。
  5. 策略训练 – 将过滤后的合成数据集与原始演示合并,训练标准的模仿学习算法(行为克隆、离线 RL)。

关键洞见在于,扩散模型将机器人渲染的骨架视为硬约束,从而避免了以往生成方法中常见的“不可能的关节配置”幻觉。

Results & Findings

设置基线(仅真实演示)+ AnchorDream 合成数据相对提升
模拟抓取‑放置(30 k 步)0.62 成功率0.85 成功率+36.4 %
真实世界桌面重排(5 k 步)0.41 成功率0.78 成功率~+90 %
对未见物体的泛化0.350.66+89 %
  • 视觉保真度:人工评估者认为生成视频“可信”的比例为 93 %。
  • 具身一致性:过滤后样本中出现关节违规的比例 < 2 %,验证了锚点的有效性。
  • 训练效率:加入合成数据后,达到目标性能所需的真实世界 rollout 数量减少约 60 %。

Practical Implications

  • 快速数据集扩展:团队只需少量遥控演示,即可瞬间扩展为丰富多样的数据集,数据采集成本降低数个数量级。
  • Sim‑to‑Real 桥梁:由于合成视频逼真且遵守机器人运动学,基于其训练的策略在实际硬件上迁移更顺畅,降低了对昂贵 domain‑randomization 手段的依赖。
  • 即插即用的增强:AnchorDream 流水线可在任何模仿学习训练器之前插入,兼容 PyTorch Lightning、RLlib、ROS 等主流框架。
  • 自定义场景生成:通过调节文本提示,开发者可以合成边缘案例环境(如低光、杂乱)以在部署前对策略进行压力测试。

Limitations & Future Work

  • 依赖高质量锚点渲染器 – 方法假设拥有准确的机器人 3‑D 网格;若网格与真实不符,错误会传播至扩散输出。
  • 计算成本 – 生成成千上万段高分辨率视频仍需 GPU 密集型扩散推理,对超大规模项目可能成为瓶颈。
  • 仅限视觉模态 – 当前实现不生成触觉或力反馈数据,而这些在许多操作任务中至关重要。
  • 未来方向:作者提出将条件扩展至多模态扩散(音频、触觉),结合闭环策略反馈迭代优化生成数据,并探索轻量化扩散模型以实现设备端合成。

Authors

  • Junjie Ye
  • Rong Xue
  • Basile Van Hoorick
  • Pavel Tokmakov
  • Muhammad Zubair Irshad
  • Yue Wang
  • Vitor Guizilini

Paper Information

  • arXiv ID: 2512.11797v1
  • Categories: cs.RO, cs.CV
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

【论文】循环视频掩码自编码器

我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……