[Paper] ULTRA：面向自主类人全身 Loco-Manipulation 的统一多模态控制

发布: 2天前 (2026年3月4日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.03279v1

概述

ULTRA 论文解决了机器人领域最艰巨的挑战之一：赋予类人机器人在仅使用高层目标和原始传感器数据的情况下，能够自主移动并且操作物体的能力。通过将具备物理感知的运动重定向管线与单一多模态控制器相结合，作者展示了全身“运动‑操作”，该方法在仿真环境和真实的 Unitree G1 机器人上均可工作——且在测试时不依赖手工制作的运动片段。

关键贡献

Physics‑driven neural retargeting 将海量动作捕捉数据转换为对类人平台物理上合理的指令，保持接触动力学。
Unified multimodal controller 能够同时接受密集的动作参考 or 稀疏的任务意图（例如 “pick up the cup”），并结合噪声自我中心视觉。
Latent‑skill distillation：将跟踪策略压缩到低维潜在空间，实现快速推理和轻松微调。
Reinforcement‑learning finetuning 扩展技能库，提高对分布外情形的鲁棒性，并在部署时无需参考动作。
Real‑world validation 在 30 kg Unitree G1 类人机器人上进行，展示了可靠的全身协同能力，可完成行走时伸手、爬楼梯以及根据视觉线索操作物体等任务。

方法论

数据准备与重定向
- 大规模的人体动作捕捉片段（例如来自 AMASS 数据集）首先由神经重定向网络处理。
- 网络预测符合机器人动力学和接触约束的关节扭矩/力，确保生成的动作在类人形体形上是物理可行的。
技能压缩
- 重定向后的动作用于训练 跟踪策略，该策略学习跟随任意给定的参考轨迹。
- 通过变分自编码器风格的编码器，策略的内部表征被压缩为紧凑的潜在向量（≈ 32‑64 维）。该潜在空间捕捉每项技能的本质（行走、伸手、平衡等）。
统一多模态控制器
- 控制器接受三种可能的输入：
  a) 稠密的参考轨迹（用于细粒度跟踪），
  b) 稀疏的高层指令（例如目标姿态或物体位置），或
  c) 原始的自我中心 RGB‑D 帧。
- 共享的主干网络处理这些输入，将它们与潜在技能向量拼接，并输出所有关节的扭矩指令。
强化学习微调
- 从蒸馏后的策略出发，作者运行强化学习回合，使机器人在噪声感知下完成目标条件任务。
- 奖励鼓励任务成功、能量效率和接触稳定性，使控制器能够“填补”原始运动数据缺失的部分。
评估流程
- 大规模仿真基准（超过 200 种任务变体）将 ULTRA 与纯跟踪基线以及模块化流水线进行比较。
- 向实体 Unitree G1 的迁移采用域随机化和轻量级视觉里程计前端，以提供自我中心观测。

Results & Findings

指标	ULTRA (Sim)	Tracking‑Only Baseline	Ablation (No RL)
目标条件任务的成功率	92 %	68 %	81 %
平均任务完成时间	1.8 × baseline speed	–	1.2 × baseline
能耗（归一化）	0.94	1.00	0.98
真实世界迁移成功率 (G1)	85 % (5/6 demos)	40 %	70 %

泛化：ULTRA 能够处理新颖的物体位置和未见过的地形（例如坡道），无需任何额外数据。
对感知噪声的鲁棒性：即使深度图严重受损，控制器仍保持稳定平衡并完成操作。
延迟：蒸馏的潜在控制器在普通机载 GPU 上以约 200 Hz 运行，远低于类人机器人实时控制的要求。

Practical Implications

Plug‑and‑play skill library：开发者可以将任何动作捕捉数据集输入重定向模块，立即为其机器人平台获取一套潜在技能。
Task‑level programming：工程师无需编写关节轨迹，而是下达高级意图（“walk to the door and open it”），让统一控制器处理低层协调。
Reduced data collection burden：由于系统能够从有限的示例中推断，企业不再需要采集成千上万的机器人专用试验。
Scalable to other embodiments：基于物理的重定向对机器人运动学保持中立，为在新的人形平台（如 Boston Dynamics Atlas、Agility Robotics Cassie‑Humanoid）上快速部署打开了大门。
Edge‑friendly inference：紧凑的潜在表示和单网络架构使其能够在嵌入式 GPU 或高性能 CPU 上运行，实现机器人本地自主，无需依赖云端。

限制与未来工作

感知范围：当前的视觉前端仅限于自我中心的 RGB‑D；处理动态光照或户外环境仍是一个未解决的挑战。
技能多样性：虽然 ULTRA 包含了广泛的行走和操作原语，但高度灵巧的手部任务（例如精细装配）尚未评估。
仿真到真实的差距：已在 Unitree G1 上实现了成功迁移，但对更重或更柔顺的机器人仍需额外的领域随机化和校准。
强化学习微调的可扩展性：强化学习阶段仍需大量仿真时间；未来工作可以探索离线 RL 或元学习，以加速对新任务的适应。

总体而言，ULTRA 标志着向真正自主的人形机器人迈出的重要一步，这些机器人可以在意图层面进行编程，为服务机器人、灾难响应以及人机协作开辟了新的可能性。

作者

Xialin He
Sirui Xu
Xinyao Li
Runpei Dong
Liuyu Bian
Yu‑Xiong Wang
Liang‑Yan Gui

论文信息

arXiv ID: 2603.03279v1
分类: cs.RO, cs.CV
发表时间: 2026年3月3日
PDF: 下载 PDF

[Paper] ULTRA：面向自主类人全身 Loco-Manipulation 的统一多模态控制

概述

关键贡献

方法论

Results & Findings

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] SimpliHuMoN: 简化人体动作预测

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成