[Paper] 学习类人机器人末端执行器控制用于开放词汇视觉运动操作

发布: 3天前 (2026年2月19日 GMT+8 02:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16705v1

概述

本文介绍了 HERO，一个新框架，使类人机器人能够仅凭视觉线索在日常环境中抓取并移动任意物体。通过将大规模视觉模型（如 CLIP 风格的“开放词汇”感知）与在仿真中训练的高精度、学习增强的末端执行器（EE）控制器相结合，作者实现了在多种真实环境中可靠的移动操作——从办公桌到咖啡店的桌子。

关键贡献

残差感知的 EE 跟踪策略，将经典逆向运动学（IK）与学习的正向运动学（FK）模型相结合，实现了 跟踪误差降低 3.2 倍。
模块化集成开放词汇视觉模型（如 CLIP、ALIGN），用于零样本物体识别和姿态估计，使得能够操控任何可以用自然语言描述的物体。
先行仿真训练流水线，生成的控制策略可直接迁移到真实硬件，无需大量真实世界数据采集。
全面评估，在全尺寸类人机器人上于不同高度（43 cm–92 cm）的表面以及多个室内场景中进行，展示了对杯子、苹果、玩具等物体的稳健抓取与放置。
开源发布 EE 跟踪器、视觉适配器和仿真环境，以加速社区研究。

方法论

Vision Front‑End – 一个大型预训练的视觉‑语言模型处理 RGB‑D 帧，以生成目标物体及其 3D 中心的 开放词汇 描述。无需针对特定任务进行微调。
Residual‑Aware EE Tracker
- Goal Generation：视觉模块输出期望的末端执行器姿态（位置 + 方向）。
- Inverse Kinematics (IK) Residual：经典逆运动学计算参考关节轨迹，若机器人运动学完美则能够到达目标。
- Neural Forward Model：一个轻量级神经网络预测参考轨迹实际产生的末端执行器姿态，捕捉模型误差、柔顺性和传感器噪声。
- Goal Adjustment & Replanning：将预测姿态与目标进行比较，将残差反馈用于调整参考轨迹，并以 20 Hz 的频率重复该过程。
Control Stack – 经过细化的关节指令发送至机器人上的低层 PD 控制器。整个流水线在单台配备 GPU 的工作站上实时运行。
Training Regime – 神经正向运动学模型和残差策略全部在高保真物理仿真器（MuJoCo）中训练，使用域随机化（质量、摩擦、传感器噪声）来弥合仿真到真实的差距。

结果与发现

指标	仿真	真实世界
末端执行器跟踪误差 (cm)	1.2	1.5
抓取‑放置成功率（多种物体）	94 %	88 %
相较于仅 IK 基线的降低	3.2× 更低误差	2.9× 更低误差
对未见物体类别的泛化（零‑shot）	91 %	84 %

关键要点

残差感知跟踪器始终优于纯 IK 或纯学习基线，尤其在较高表面上，小的运动学误差会累积。
开放词汇感知使机器人能够执行自然语言指令（“抓取红色杯子”），无需针对每个物体进行训练。
在仿真中训练的策略几乎没有退化地转移到真实环境，验证了域随机化策略的有效性。

实际意义

快速原型化服务机器人 – 开发者现在可以为类人平台配备即插即用的感知模块和预训练的 EE 跟踪器，省去昂贵的数据收集工作。
可扩展部署 – 由于视觉组件是零样本的，同一系统可以在不同设施（办公室、医院、零售）中部署，并仍能理解本地特定的物体。
模块化架构 – HERO 的明确分离（视觉 ↔ 残差跟踪器 ↔ 低层控制器）适配现有机器人栈（ROS2、Isaac SDK），集成过程简便。
安全性与可靠性 – 闭环残差校正降低了超调和碰撞风险，这对在人类附近操作的类人机器人至关重要。
更高层任务的基础 – 精确的 EE 控制是全身运动、工具使用和协作操作的前提，为更复杂的自主行为打开了道路。

限制与未来工作

硬件依赖 – 当前实现假设使用高精度关节编码器套件和可靠的深度传感器；在更廉价的平台上性能可能下降。
动态物体 – HERO 侧重于静态物体；处理移动目标（例如，将杯子递给人）仍是一个未解决的挑战。
计算负载 – 实时残差规划在 GPU 上约为 20 Hz；嵌入式部署可能需要模型剪枝或边缘加速器。
对室外/非结构化地形的泛化 – 该系统仅在室内相对平坦的表面上验证过；扩展到不平坦地面需要集成全身平衡控制器。

作者概述的未来方向包括将触觉反馈纳入残差回路、将视觉前端扩展到多模态语言指令，以及在更大规模的异构类人机器人群体上评估该方法。

作者

Runpei Dong
Ziyan Li
Xialin He
Saurabh Gupta

论文信息

arXiv ID: 2602.16705v1
分类: cs.RO, cs.CV
发表时间: 2026年2月18日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合，但在实践中往往未能忠实地遵循语言。当 pr...

人类水平的 3D 形状感知源于多视图学习

人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…