[Paper] ULTRA:面向自主类人全身 Loco-Manipulation 的统一多模态控制

发布: (2026年3月4日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.03279v1

概述

ULTRA 论文解决了机器人领域最艰巨的挑战之一:赋予类人机器人在仅使用高层目标和原始传感器数据的情况下,能够自主移动 并且 操作物体的能力。通过将具备物理感知的运动重定向管线与单一多模态控制器相结合,作者展示了全身“运动‑操作”,该方法在仿真环境和真实的 Unitree G1 机器人上均可工作——且在测试时不依赖手工制作的运动片段。

关键贡献

  • Physics‑driven neural retargeting 将海量动作捕捉数据转换为对类人平台物理上合理的指令,保持接触动力学。
  • Unified multimodal controller 能够同时接受密集的动作参考 or 稀疏的任务意图(例如 “pick up the cup”),并结合噪声自我中心视觉。
  • Latent‑skill distillation:将跟踪策略压缩到低维潜在空间,实现快速推理和轻松微调。
  • Reinforcement‑learning finetuning 扩展技能库,提高对分布外情形的鲁棒性,并在部署时无需参考动作。
  • Real‑world validation 在 30 kg Unitree G1 类人机器人上进行,展示了可靠的全身协同能力,可完成行走时伸手、爬楼梯以及根据视觉线索操作物体等任务。

方法论

  1. 数据准备与重定向

    • 大规模的人体动作捕捉片段(例如来自 AMASS 数据集)首先由神经重定向网络处理。
    • 网络预测符合机器人动力学和接触约束的关节扭矩/力,确保生成的动作在类人形体形上是物理可行的。
  2. 技能压缩

    • 重定向后的动作用于训练 跟踪策略,该策略学习跟随任意给定的参考轨迹。
    • 通过变分自编码器风格的编码器,策略的内部表征被压缩为紧凑的潜在向量(≈ 32‑64 维)。该潜在空间捕捉每项技能的本质(行走、伸手、平衡等)。
  3. 统一多模态控制器

    • 控制器接受三种可能的输入:
      a) 稠密的参考轨迹(用于细粒度跟踪),
      b) 稀疏的高层指令(例如目标姿态或物体位置),或
      c) 原始的自我中心 RGB‑D 帧。
    • 共享的主干网络处理这些输入,将它们与潜在技能向量拼接,并输出所有关节的扭矩指令。
  4. 强化学习微调

    • 从蒸馏后的策略出发,作者运行强化学习回合,使机器人在噪声感知下完成目标条件任务。
    • 奖励鼓励任务成功、能量效率和接触稳定性,使控制器能够“填补”原始运动数据缺失的部分。
  5. 评估流程

    • 大规模仿真基准(超过 200 种任务变体)将 ULTRA 与纯跟踪基线以及模块化流水线进行比较。
    • 向实体 Unitree G1 的迁移采用域随机化和轻量级视觉里程计前端,以提供自我中心观测。

Results & Findings

指标ULTRA (Sim)Tracking‑Only BaselineAblation (No RL)
目标条件任务的成功率92 %68 %81 %
平均任务完成时间1.8 × baseline speed1.2 × baseline
能耗(归一化)0.941.000.98
真实世界迁移成功率 (G1)85 % (5/6 demos)40 %70 %
  • 泛化:ULTRA 能够处理新颖的物体位置和未见过的地形(例如坡道),无需任何额外数据。
  • 对感知噪声的鲁棒性:即使深度图严重受损,控制器仍保持稳定平衡并完成操作。
  • 延迟:蒸馏的潜在控制器在普通机载 GPU 上以约 200 Hz 运行,远低于类人机器人实时控制的要求。

Practical Implications

  • Plug‑and‑play skill library:开发者可以将任何动作捕捉数据集输入重定向模块,立即为其机器人平台获取一套潜在技能。
  • Task‑level programming:工程师无需编写关节轨迹,而是下达高级意图(“walk to the door and open it”),让统一控制器处理低层协调。
  • Reduced data collection burden:由于系统能够从有限的示例中推断,企业不再需要采集成千上万的机器人专用试验。
  • Scalable to other embodiments:基于物理的重定向对机器人运动学保持中立,为在新的人形平台(如 Boston Dynamics Atlas、Agility Robotics Cassie‑Humanoid)上快速部署打开了大门。
  • Edge‑friendly inference:紧凑的潜在表示和单网络架构使其能够在嵌入式 GPU 或高性能 CPU 上运行,实现机器人本地自主,无需依赖云端。

限制与未来工作

  • 感知范围:当前的视觉前端仅限于自我中心的 RGB‑D;处理动态光照或户外环境仍是一个未解决的挑战。
  • 技能多样性:虽然 ULTRA 包含了广泛的行走和操作原语,但高度灵巧的手部任务(例如精细装配)尚未评估。
  • 仿真到真实的差距:已在 Unitree G1 上实现了成功迁移,但对更重或更柔顺的机器人仍需额外的领域随机化和校准。
  • 强化学习微调的可扩展性:强化学习阶段仍需大量仿真时间;未来工作可以探索离线 RL 或元学习,以加速对新任务的适应。

总体而言,ULTRA 标志着向真正自主的人形机器人迈出的重要一步,这些机器人可以在意图层面进行编程,为服务机器人、灾难响应以及人机协作开辟了新的可能性。

作者

  • Xialin He
  • Sirui Xu
  • Xinyao Li
  • Runpei Dong
  • Liuyu Bian
  • Yu‑Xiong Wang
  • Liang‑Yan Gui

论文信息

  • arXiv ID: 2603.03279v1
  • 分类: cs.RO, cs.CV
  • 发表时间: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……