[Paper] 学习类人机器人末端执行器控制用于开放词汇视觉运动操作

发布: (2026年2月19日 GMT+8 02:55)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16705v1

概述

本文介绍了 HERO,一个新框架,使类人机器人能够仅凭视觉线索在日常环境中抓取并移动任意物体。通过将大规模视觉模型(如 CLIP 风格的“开放词汇”感知)与在仿真中训练的高精度、学习增强的末端执行器(EE)控制器相结合,作者实现了在多种真实环境中可靠的移动操作——从办公桌到咖啡店的桌子。

关键贡献

  • 残差感知的 EE 跟踪策略,将经典逆向运动学(IK)与学习的正向运动学(FK)模型相结合,实现了 跟踪误差降低 3.2 倍
  • 模块化集成开放词汇视觉模型(如 CLIP、ALIGN),用于零样本物体识别和姿态估计,使得能够操控 任何 可以用自然语言描述的物体。
  • 先行仿真训练流水线,生成的控制策略可直接迁移到真实硬件,无需大量真实世界数据采集。
  • 全面评估,在全尺寸类人机器人上于不同高度(43 cm–92 cm)的表面以及多个室内场景中进行,展示了对杯子、苹果、玩具等物体的稳健抓取与放置。
  • 开源发布 EE 跟踪器、视觉适配器和仿真环境,以加速社区研究。

方法论

  1. Vision Front‑End – 一个大型预训练的视觉‑语言模型处理 RGB‑D 帧,以生成目标物体及其 3D 中心的 开放词汇 描述。无需针对特定任务进行微调。

  2. Residual‑Aware EE Tracker

    • Goal Generation:视觉模块输出期望的末端执行器姿态(位置 + 方向)。
    • Inverse Kinematics (IK) Residual:经典逆运动学计算参考关节轨迹,若机器人运动学完美则能够到达目标。
    • Neural Forward Model:一个轻量级神经网络预测参考轨迹实际产生的末端执行器姿态,捕捉模型误差、柔顺性和传感器噪声。
    • Goal Adjustment & Replanning:将预测姿态与目标进行比较,将残差反馈用于调整参考轨迹,并以 20 Hz 的频率重复该过程。
  3. Control Stack – 经过细化的关节指令发送至机器人上的低层 PD 控制器。整个流水线在单台配备 GPU 的工作站上实时运行。

  4. Training Regime – 神经正向运动学模型和残差策略全部在高保真物理仿真器(MuJoCo)中训练,使用域随机化(质量、摩擦、传感器噪声)来弥合仿真到真实的差距。

结果与发现

指标仿真真实世界
末端执行器跟踪误差 (cm)1.21.5
抓取‑放置成功率(多种物体)94 %88 %
相较于仅 IK 基线的降低3.2× 更低误差2.9× 更低误差
对未见物体类别的泛化(零‑shot)91 %84 %

关键要点

  • 残差感知跟踪器始终优于纯 IK 或纯学习基线,尤其在较高表面上,小的运动学误差会累积。
  • 开放词汇感知使机器人能够执行自然语言指令(“抓取红色杯子”),无需针对每个物体进行训练。
  • 在仿真中训练的策略几乎没有退化地转移到真实环境,验证了域随机化策略的有效性。

实际意义

  • 快速原型化服务机器人 – 开发者现在可以为类人平台配备即插即用的感知模块和预训练的 EE 跟踪器,省去昂贵的数据收集工作。
  • 可扩展部署 – 由于视觉组件是零样本的,同一系统可以在不同设施(办公室、医院、零售)中部署,并仍能理解本地特定的物体。
  • 模块化架构 – HERO 的明确分离(视觉 ↔ 残差跟踪器 ↔ 低层控制器)适配现有机器人栈(ROS2、Isaac SDK),集成过程简便。
  • 安全性与可靠性 – 闭环残差校正降低了超调和碰撞风险,这对在人类附近操作的类人机器人至关重要。
  • 更高层任务的基础 – 精确的 EE 控制是全身运动、工具使用和协作操作的前提,为更复杂的自主行为打开了道路。

限制与未来工作

  • 硬件依赖 – 当前实现假设使用高精度关节编码器套件和可靠的深度传感器;在更廉价的平台上性能可能下降。
  • 动态物体 – HERO 侧重于静态物体;处理移动目标(例如,将杯子递给人)仍是一个未解决的挑战。
  • 计算负载 – 实时残差规划在 GPU 上约为 20 Hz;嵌入式部署可能需要模型剪枝或边缘加速器。
  • 对室外/非结构化地形的泛化 – 该系统仅在室内相对平坦的表面上验证过;扩展到不平坦地面需要集成全身平衡控制器。

作者概述的未来方向包括将触觉反馈纳入残差回路、将视觉前端扩展到多模态语言指令,以及在更大规模的异构类人机器人群体上评估该方法。

作者

  • Runpei Dong
  • Ziyan Li
  • Xialin He
  • Saurabh Gupta

论文信息

  • arXiv ID: 2602.16705v1
  • 分类: cs.RO, cs.CV
  • 发表时间: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »