[Paper] 学习类人机器人末端执行器控制用于开放词汇视觉运动操作
Source: arXiv - 2602.16705v1
概述
本文介绍了 HERO,一个新框架,使类人机器人能够仅凭视觉线索在日常环境中抓取并移动任意物体。通过将大规模视觉模型(如 CLIP 风格的“开放词汇”感知)与在仿真中训练的高精度、学习增强的末端执行器(EE)控制器相结合,作者实现了在多种真实环境中可靠的移动操作——从办公桌到咖啡店的桌子。
关键贡献
- 残差感知的 EE 跟踪策略,将经典逆向运动学(IK)与学习的正向运动学(FK)模型相结合,实现了 跟踪误差降低 3.2 倍。
- 模块化集成开放词汇视觉模型(如 CLIP、ALIGN),用于零样本物体识别和姿态估计,使得能够操控 任何 可以用自然语言描述的物体。
- 先行仿真训练流水线,生成的控制策略可直接迁移到真实硬件,无需大量真实世界数据采集。
- 全面评估,在全尺寸类人机器人上于不同高度(43 cm–92 cm)的表面以及多个室内场景中进行,展示了对杯子、苹果、玩具等物体的稳健抓取与放置。
- 开源发布 EE 跟踪器、视觉适配器和仿真环境,以加速社区研究。
方法论
-
Vision Front‑End – 一个大型预训练的视觉‑语言模型处理 RGB‑D 帧,以生成目标物体及其 3D 中心的 开放词汇 描述。无需针对特定任务进行微调。
-
Residual‑Aware EE Tracker
- Goal Generation:视觉模块输出期望的末端执行器姿态(位置 + 方向)。
- Inverse Kinematics (IK) Residual:经典逆运动学计算参考关节轨迹,若机器人运动学完美则能够到达目标。
- Neural Forward Model:一个轻量级神经网络预测参考轨迹实际产生的末端执行器姿态,捕捉模型误差、柔顺性和传感器噪声。
- Goal Adjustment & Replanning:将预测姿态与目标进行比较,将残差反馈用于调整参考轨迹,并以 20 Hz 的频率重复该过程。
-
Control Stack – 经过细化的关节指令发送至机器人上的低层 PD 控制器。整个流水线在单台配备 GPU 的工作站上实时运行。
-
Training Regime – 神经正向运动学模型和残差策略全部在高保真物理仿真器(MuJoCo)中训练,使用域随机化(质量、摩擦、传感器噪声)来弥合仿真到真实的差距。
结果与发现
| 指标 | 仿真 | 真实世界 |
|---|---|---|
| 末端执行器跟踪误差 (cm) | 1.2 | 1.5 |
| 抓取‑放置成功率(多种物体) | 94 % | 88 % |
| 相较于仅 IK 基线的降低 | 3.2× 更低误差 | 2.9× 更低误差 |
| 对未见物体类别的泛化(零‑shot) | 91 % | 84 % |
关键要点
- 残差感知跟踪器始终优于纯 IK 或纯学习基线,尤其在较高表面上,小的运动学误差会累积。
- 开放词汇感知使机器人能够执行自然语言指令(“抓取红色杯子”),无需针对每个物体进行训练。
- 在仿真中训练的策略几乎没有退化地转移到真实环境,验证了域随机化策略的有效性。
实际意义
- 快速原型化服务机器人 – 开发者现在可以为类人平台配备即插即用的感知模块和预训练的 EE 跟踪器,省去昂贵的数据收集工作。
- 可扩展部署 – 由于视觉组件是零样本的,同一系统可以在不同设施(办公室、医院、零售)中部署,并仍能理解本地特定的物体。
- 模块化架构 – HERO 的明确分离(视觉 ↔ 残差跟踪器 ↔ 低层控制器)适配现有机器人栈(ROS2、Isaac SDK),集成过程简便。
- 安全性与可靠性 – 闭环残差校正降低了超调和碰撞风险,这对在人类附近操作的类人机器人至关重要。
- 更高层任务的基础 – 精确的 EE 控制是全身运动、工具使用和协作操作的前提,为更复杂的自主行为打开了道路。
限制与未来工作
- 硬件依赖 – 当前实现假设使用高精度关节编码器套件和可靠的深度传感器;在更廉价的平台上性能可能下降。
- 动态物体 – HERO 侧重于静态物体;处理移动目标(例如,将杯子递给人)仍是一个未解决的挑战。
- 计算负载 – 实时残差规划在 GPU 上约为 20 Hz;嵌入式部署可能需要模型剪枝或边缘加速器。
- 对室外/非结构化地形的泛化 – 该系统仅在室内相对平坦的表面上验证过;扩展到不平坦地面需要集成全身平衡控制器。
作者概述的未来方向包括将触觉反馈纳入残差回路、将视觉前端扩展到多模态语言指令,以及在更大规模的异构类人机器人群体上评估该方法。
作者
- Runpei Dong
- Ziyan Li
- Xialin He
- Saurabh Gupta
论文信息
- arXiv ID: 2602.16705v1
- 分类: cs.RO, cs.CV
- 发表时间: 2026年2月18日
- PDF: 下载 PDF