[Paper] AnyTask:用于推进 Sim-to-Real 策略学习的自动任务与数据生成框架
发布: (2025年12月20日 GMT+8 01:55)
8 min read
原文: arXiv
Source: arXiv - 2512.17853v1
Overview
AnyTask 是一个全自动流水线,利用大规模基于 GPU 的仿真以及大规模基础模型(视觉语言模型和大型语言模型),创建数千种多样的机器人操作任务,生成专家演示,并训练能够直接迁移到真实机器人上的策略。通过消除任务设计、场景生成和数据收集的人工瓶颈,该框架将通用机器人学习推向现代 AI 系统的规模。
关键贡献
- 端到端自动化:一个单一框架,设计任务,构建任务感知场景,合成专家轨迹,并在无需人工介入工程的情况下实现仿真到真实的迁移。
- ViPR(视觉‑语言‑在‑循环规划器):一种新颖的任务与运动规划代理,使用视觉语言模型(VLM)迭代细化计划,以确保可行性和安全性。
- ViPR‑Eureka:一个强化学习代理,自动从 LLM 生成的任务描述中构建稠密奖励函数,并在语言提示的指导下采样接触点。
- ViPR‑RL(混合规划‑学习器):一种混合规划与学习的方法,即使只有稀疏奖励,也能生成高质量示范。
- 大规模数据生成:在各种对象、姿态和任务族(抓取‑放置、抽屉打开、接触丰富的推送、长时序列)中进行数百万次仿真交互。
- 真实世界验证:仅在合成数据上训练的策略在未见过的真实任务上实现 44 % 平均成功率,展示了稳健的仿真到真实迁移能力。
Source: …
方法论
- 通过 LLM 指定任务 – 自然语言提示描述操作目标(例如,“打开上层抽屉并把红色方块放进去”)。LLM 将其展开为结构化任务图(前置条件、目标状态、约束)。
- 场景生成 – VLM 解析任务图并在模拟环境中放置相应对象,随机化姿态、纹理和光照,以最大化多样性。
- 专家示范合成 – 三个代理并行工作:
- ViPR 运行经典的任务与运动规划器,然后查询 VLM 验证每一步(无碰撞、可抓取),并迭代优化计划。
- ViPR‑Eureka 根据 LLM 描述构建密集奖励模型,并使用带接触采样启发式的强化学习发现高质量轨迹。
- ViPR‑RL 将稀疏奖励强化学习与偶尔的规划器生成的路点相结合,使其能够解决难以定义密集奖励的任务。
- 行为克隆 – 将所有生成的轨迹聚合成大规模数据集。基于 transformer 的策略网络在视觉观测条件下学习模仿专家动作。
- 仿真到真实的迁移 – 在训练期间应用域随机化(相机噪声、摩擦系数变化、执行器延迟)。得到的策略在配备 RGB‑D 相机的实体机械臂上直接部署,保持不变。
结果与发现
| Metric | Simulation | Real‑World (unseen tasks) |
|---|---|---|
| Success Rate (average across 10 task families) | 92 % | 44 % |
| Number of generated tasks | > 5 k distinct task definitions | – |
| Demonstrations per task (average) | 20–50 | – |
| Policy inference latency | ~30 ms on RTX 3090 | ~45 ms on embedded GPU |
- 这些策略能够推广到新颖的物体姿态,甚至是仿真中未见过的物体,这得益于大量的视觉和物理随机化。
- ViPR 产生最高保真度的轨迹(最接近人类演示的计划),而 ViPR‑Eureka 在接触丰富、需要密集奖励的任务上表现出色。
- 混合式 ViPR‑RL 弥合了差距,以更少的环境交互实现了可比的性能。
实际意义
- 快速原型化机器人技能 – 工程师可以用普通英文描述新的操作目标,并在数小时内获得可直接运行的策略,省去手动场景搭建和数据收集。
- 可扩展的数据管道 – 企业可以利用云端 GPU 农场生成 PB 级的合成机器人经验,为大规模基础模型提供持续学习的数据。
- 通用机器人平台 – 该方法为“一体化”机械手铺平道路,使其能够即时切换任务,适用于任务多变的仓储、家庭助理和制造业等场景。
- 降低对昂贵真实试验的依赖 – AnyTask 在零真实数据的情况下,在未见过的真实任务上实现超过 40% 的成功率,减少了昂贵的远程操作或人工示范的需求。
- 开源可扩展性 – 模块化代理(ViPR、ViPR‑Eureka、ViPR‑RL)可以与专有规划器互换或组合,便于集成到现有机器人系统中。
限制与未来工作
- 成功上限 – 虽然 44 % 对于零真实数据的策略已经相当惊人,但许多工业场景仍然需要 >80 % 的可靠性;可能需要进一步的领域适配或少量真实数据微调。
- 任务复杂度限制 – 当前的 LLM 提示解析器能处理约 10 步的顺序任务;极长时域或层级任务可能会使规划器不堪重负。
- 仿真保真度 – 某些接触动力学(例如软体变形)仍是近似的,这限制了对高度可变形材料的迁移。
- 安全保证 – VLM 在环路中的验证能够降低碰撞,但未提供形式化的安全证明;计划将运动规划安全证书集成进来。
- LLM/VLM 调用的可扩展性 – 大规模并行生成会产生高额的 API 成本;未来工作旨在使用设备端蒸馏模型以降低计算开销。
总体而言,AnyTask 证明了将大规模仿真与基础模型相结合能够显著加速通用机器人操作策略的生成,为在真实世界中实现面向通用且对数据需求巨大的机器人学习开辟了实用路径。
作者
- Ran Gong
- Xiaohan Zhang
- Jinghuan Shang
- Maria Vittoria Minniti
- Jigarkumar Patel
- Valerio Pepe
- Riedana Yan
- Ahmet Gundogdu
- Ivan Kapelyukh
- Ali Abbas
- Xiaoqiang Yan
- Harsh Patel
- Laura Herlant
- Karl Schmeckpeper
论文信息
- arXiv ID: 2512.17853v1
- 分类: cs.RO, cs.AI
- 发布日期: 2025年12月19日
- PDF: Download PDF