[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

发布: 1个月前 (2025年12月13日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.11797v1

Overview

论文 AnchorDream 提出了一种通过复用现成视频扩散模型来生成大规模、高质量机器人演示数据的新方法。通过将扩散过程“锚定”在机器人实际运动的渲染上，该方法生成的视频能够遵循机器人的物理形体，使开发者能够在不需要昂贵真实数据采集的情况下训练模仿学习策略。

收集种子数据集 – 少量（≈ 10–50）人工遥控的机器人轨迹，每条轨迹配有机器人手臂/末端执行器运动的渲染视频。
渲染运动锚点 – 对每个时间步，将机器人的关节角度可视化为一个简单的 3‑D 网格叠加（即“锚点”），该锚点在扩散过程中保持不变。
条件扩散 – 预训练的文本到视频扩散模型接收两个输入：
- 运动锚点帧（作为时空掩码）。
- 可选的文本提示，描述期望的场景变化（例如 “厨房台面”、 “凌乱的书桌”）。
  扩散过程在保持锚点几何和运动的前提下，填充背景、物体和光照。
采样与过滤 – 生成成千上万段视频后，使用轻量分类器过滤，检查运动学一致性（如无自碰撞）。
策略训练 – 将过滤后的合成数据集与原始演示合并，训练标准的模仿学习算法（行为克隆、离线 RL）。

关键洞见在于，扩散模型将机器人渲染的骨架视为硬约束，从而避免了以往生成方法中常见的“不可能的关节配置”幻觉。

设置	基线（仅真实演示）	+ AnchorDream 合成数据	相对提升
模拟抓取‑放置（30 k 步）	0.62 成功率	0.85 成功率	+36.4 %
真实世界桌面重排（5 k 步）	0.41 成功率	0.78 成功率	~+90 %
对未见物体的泛化	0.35	0.66	+89 %

快速数据集扩展：团队只需少量遥控演示，即可瞬间扩展为丰富多样的数据集，数据采集成本降低数个数量级。
Sim‑to‑Real 桥梁：由于合成视频逼真且遵守机器人运动学，基于其训练的策略在实际硬件上迁移更顺畅，降低了对昂贵 domain‑randomization 手段的依赖。
即插即用的增强：AnchorDream 流水线可在任何模仿学习训练器之前插入，兼容 PyTorch Lightning、RLlib、ROS 等主流框架。
自定义场景生成：通过调节文本提示，开发者可以合成边缘案例环境（如低光、杂乱）以在部署前对策略进行压力测试。