[Paper] OSMO:开源触觉手套用于人类到机器人技能转移
发布: (2025年12月10日 GMT+8 02:56)
7 min read
原文: arXiv
Source: arXiv - 2512.08920v1
概览
本文提出了 OSMO,一种开源触觉手套,可从人类示范者处捕获高分辨率的接触数据(法向力和切向力),并直接将其输入机器人学习流水线。通过弥合“视觉‑触觉体现差距”,OSMO 使机器人能够仅凭人类视频示范获取丰富接触的操作技能——无需机器人侧的数据采集。
主要贡献
- 开源硬件:提供完整的 CAD 文件、PCB 布局、固件以及 12 传感器、三轴触觉手套的逐步装配说明。
- 统一感知接口:为人类示范者和机器人末端执行器提供相同的触觉数据流,简化领域迁移。
- 接触感知学习流水线:展示仅使用人类收集的触觉轨迹训练的策略即可在真实擦拭任务中实现 72 % 的成功率。
- 与仅视觉基线的对标:在加入触觉反馈后,明显降低了与接触相关的失效模式。
- 兼容现有手部追踪:设计上可与最先进的基于视觉的手势姿态估计器共同使用,实现“野外”数据捕获。
方法论
- 手套设计 – 每个指尖和掌心配备一个三轴力传感器(共 12 个传感器),以约 200 Hz 的频率输出法向力和切向力。手套轻量、无线,并由小型锂聚合物电池供电。
- 数据采集 – 人类操作员佩戴手套进行操作示范,同时使用标准 RGB 相机和手部追踪系统(如 MediaPipe)进行捕捉。触觉流与视频及姿态数据同步。
- 策略训练 – 作者采用行为克隆:机器人的神经网络接收同步的视觉姿态和触觉读数作为输入,输出关节指令。训练期间不使用机器人侧的交互数据。
- 部署 – 同一手套(或机器人装配的复制品)被安装在 6‑DOF 操作臂上。执行时,机器人读取自身的触觉传感器,并将其反馈给已学习的策略,实现闭环控制。
- 评估 – 使用一个接触密集的擦拭任务(在表面保持稳定压力并横向移动)来比较感知触觉的策略与仅视觉基线的表现。
结果与发现
- 成功率:感知触觉的策略在 50 次试验中实现 72 % 的任务成功率,而最佳仅视觉基线最高约为 45 %。
- 失效模式降低:大多数仅视觉的失效是由于失去接触(滑动)或施加过大力矩;触觉反馈使机器人能够实时调节压力。
- 泛化能力:在无人微调的情况下,基于人类示范训练的策略直接迁移到机器人,表明共享的手套接口有效桥接了体现差异。
- 延迟:端到端的感知‑动作延迟保持在 30 ms 以下,足以在所测试场景中实现稳定的闭环力控制。
实际意义
- 快速技能获取:开发者可以从大量人类示范(例如 YouTube 视频)中收集库,并立即训练感知触觉机器人,无需昂贵的机器人侧数据采集。
- 降低接触密集任务的门槛:装配、清洁或食品处理等对力控制要求高的行业,可采用 OSMO 更快原型化稳健的操作流水线。
- 模块化集成:由于手套输出标准 ROS 消息,可直接嵌入现有的感知‑动作堆栈,用力觉信息增强仅视觉数据集。
- 开源生态系统:公开的硬件和固件鼓励社区扩展(如更高密度的传感器阵列、用于远程操作的触觉反馈),促进可重复性研究。
局限性与未来工作
- 传感器覆盖:仅在指尖和掌心配备传感器,指垫等更细微的接触点未被捕获,可能限制在需要精细指尖力调节的任务上的表现。
- 校准开销:准确的力读数需要对每只手套进行校准,为大规模部署增加了准备步骤。
- 示范的可扩展性:虽然手套成本低廉,但收集多样且高质量的人类示范仍需细致的指导和一致的手部追踪质量。
- 未来方向:作者计划 (1) 在手背上集成额外的切向敏感传感器,(2) 探索自监督的领域适配以降低校准工作量,(3) 将流水线扩展至多模态学习,融合触觉、视觉和音频线索,以实现更丰富的技能迁移。
作者
- Jessica Yin
- Haozhi Qi
- Youngsun Wi
- Sayantan Kundu
- Mike Lambeta
- William Yang
- Changhao Wang
- Tingfan Wu
- Jitendra Malik
- Tess Hellebrekers
论文信息
- arXiv ID: 2512.08920v1
- 分类: cs.RO, cs.LG
- 发表时间: 2025 年 12 月 9 日
- PDF: Download PDF