[Paper] 协同类人机器人操作与选择策略
发布: (2026年1月1日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.25072v1
请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原有的格式。
概述
本文介绍了一种新系统,使类人机器人能够执行复杂的全身任务——例如装载洗碗机或擦白板——通过将直观的遥操作界面与一种称为 Choice Policy 的新颖模仿学习算法相结合。通过将机器人控制拆分为模块化子任务并从高质量的人类示范中学习,作者实现了机器人在真实、非结构化环境中头部、手部和腿部的可靠协同。
关键贡献
- Modular tele‑operation framework 将类人机器人控制分解为手眼协同、抓取原语、手臂跟踪和移动,实现快速且可扩展的数据采集。
- Choice Policy:一种模仿学习架构,能够生成多个候选动作,对其进行打分并选出最佳动作,高效处理多模态行为。
- 在两个具有挑战性的真实任务上进行实证验证(洗碗机装载和全身协同操作的白板擦拭),展示出相较于 diffusion‑based policies 和 vanilla behavior cloning 的卓越性能。
- 对 hand‑eye coordination 的深入分析,表明其在类人机器人长时程操作任务中的关键作用。
- Open‑source‑ready pipeline,可在最小工程投入下适配其他类人机器人平台和任务族。
方法论
- 遥操作数据收集 – 机器人通过一套直观的界面进行控制:用于头部方向的 VR 头显、每只手的 6‑DOF 控制器,以及用于移动的脚垫。操作员执行子任务(例如 “抓取杯子”、 “向前迈步”),系统同步记录传感器数据和机器人关节状态。
- 模块化分解 – 将每个子任务视为独立的 “技能”,拥有各自的观察/动作空间,这样更容易捕获干净的示范,并且可以在不同任务之间复用技能。
- Choice Policy 架构
- 候选生成器:一个轻量级神经网络根据当前观察预测一小组(例如 5‑10 个)可能的下一步动作。
- 评分网络:第二个网络使用学习得到的价值函数对每个候选进行评估,价值函数反映动作与示范行为的匹配程度。
- 选择:执行得分最高的候选动作,实现快速推理(≈ 10 ms),同时保留表达多模态选项的能力(例如不同的抓取方式)。
- 训练 – 系统通过对收集到的示范进行监督模仿学习进行训练,并加入辅助损失以鼓励生成的候选之间的多样性。
结果与发现
| 任务 | 指标(成功率) | Choice Policy | Diffusion Policy | Behavior Cloning |
|---|---|---|---|---|
| 洗碗机装载 | 成功率 | 92 % | 78 % | 65 % |
| 白板擦拭(全身) | 成功率 | 88 % | 71 % | 60 % |
- 更高的成功率:Choice Policy 在两个任务上始终优于基于扩散的策略和标准行为克隆。
- 速度:Choice Policy 的每次决策推理时间约为 10 ms,而扩散模型约为 120 ms,从而实现更平滑的实时控制。
- 手眼协同的消融实验:去除专用的手眼模块会导致洗碗机任务的成功率下降约 20 %,验证了其关键作用。
- 对扰动的鲁棒性:该策略能够在轻微推挤或意外物体放置后恢复,而无需重新初始化整个轨迹。
实际意义
- 可扩展的数据管道:模块化的遥操作设置降低了在任何类人平台上收集大规模高质量数据集的门槛,加速了研究和产品开发。
- 实时部署:Choice Policy 的快速推理使其能够在当前计算受限的类人机器人上进行板载执行,为家庭、医院和办公室等服务机器人应用打开了大门。
- 多模态决策:通过显式生成并评分多个动作,开发者可以在评分网络中嵌入安全检查或偏好启发式(例如能效、避碰)。
- 可转移性:由于技能是模块化的,可重用原语库(抓取、步行、转头)可以组合用于新任务,减少对特定任务的重新训练需求。
- 全身协同基准:论文的实验设置(洗碗机、白板)提供了一个具体的基准,行业团队可以采用该基准来评估自己的类人机器人控制器。
限制与未来工作
- 演示依赖:系统仍然依赖大量高质量的遥控演示;要扩展到极其多样的任务,可能需要进一步实现数据收集的自动化。
- 感知受限:当前流水线使用相对简单的视觉输入(RGB‑D),未结合高级场景理解(例如语义分割),这可能提升在杂乱环境中的鲁棒性。
- 跨机器人形态的泛化:实验仅在单一人形平台上进行;将该方法适配到具有不同运动学结构的机器人可能需要额外的校准。
- 作者提出的未来方向包括:集成自监督感知模块、探索用于更长时域规划的层次化 Choice Policies,以及将框架扩展到协作式多机器人场景。
作者
- Haozhi Qi
- Yen-Jen Wang
- Toru Lin
- Brent Yi
- Yi Ma
- Koushil Sreenath
- Jitendra Malik
论文信息
- arXiv ID: 2512.25072v1
- 分类: cs.RO, cs.AI, cs.LG
- 出版日期: 2025年12月31日
- PDF: 下载 PDF