Tether:自主功能性玩耍与Correspondence-Driven Trajectory Warping

发布: (2026年3月4日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.03278v1

概述

本文介绍了 Tether,一个框架,使机器人能够通过复用少量人工提供的示例来自主“玩耍”。通过使用语义关键点对应关系将示例动作映射到新场景,Tether 能够稳健地执行各种家务任务,并持续生成自己的训练数据,从而大幅降低昂贵的人类监督需求。

关键贡献

  • Correspondence‑driven action warping: 一个开放回路策略,将 ≤10 个源演示中的动作映射到新场景,通过锚定到语义上有意义的关键点(例如 “handle”、 “button”)实现。
  • Data‑efficient functional play loop: 一个自监督循环(任务选择 → 执行 → 评估 → 改进),由视觉语言模型驱动,能够自主生成高质量轨迹。
  • Real‑world multi‑task deployment: 首个系统能够在物理类家庭环境中实现数小时的自主多对象玩耍,仅从少量演示开始。
  • Closed‑loop policy improvement: 证明自收集的玩耍数据始终提升下游模仿学习策略的性能,达到可与人类收集数据集相媲美的专家级行为。
  • Scalable dataset generation: 生成 >1,000 条专家级轨迹,无需额外人工标注,为大规模机器人学习流水线打开了可能。

方法论

  1. 演示库与关键点提取 – 机器人获得一个小规模的演示库(≤10)。对于每个演示,视觉‑语言模型(例如基于 CLIP 的模型)识别语义关键点(对象部位、可供性)。
  2. 对应匹配 – 在新的目标场景中,同一模型找到最佳匹配的关键点,建立源场景与目标场景之间的几何对应关系。
  3. 轨迹变形 – 将原始动作序列进行变换(缩放、旋转、平移),使其与匹配的关键点对齐,生成可直接在机器人上执行的开环策略。
  4. 自主演练循环
    • 任务选择: 机器人查询语言模型,在当前场景下挑选一个合理的任务。
    • 执行: 运行变形后的轨迹。
    • 评估: 使用相同的视觉‑语言模型通过视觉反馈(例如对象状态变化)判断是否成功。
    • 改进: 成功的运行被存储为新的演示;失败则触发重新采样或细化。
  5. 闭环模仿学习 – 累积的数据集用于训练一个神经策略,该策略接受视觉观测并输出动作,为未来任务闭环。

结果与发现

  • 对变化的鲁棒性: Tether 在对象位移最高达 30 cm、方向变化 45° 的情况下成功,而朴素的演示重放失败率超过 80 %。
  • 数据效率: 仅使用 5–10 个示例,系统在 7 项家务任务(如打开抽屉、按下开关)中生成了超过 1 000 条成功轨迹。
  • 策略改进: 在自收集数据上训练的下游闭环模仿策略在未见任务上实现了 92 % 的成功率,性能与在等量人工收集数据上训练的策略相当。
  • 游戏时长: 机器人在真实厨房式环境中自主连续进行多任务演练超过 12 + 小时,这是在如此低示例量下的首次实现。

Practical Implications

  • 快速原型制作新机器人: 工程师可以仅通过少量手动调优的演示来启动机器人的能力,而无需耗时的数据收集。
  • 部署后的持续学习: 部署在家庭或工厂的机器人可以在空闲期间“玩耍”以不断改进,减少开发者定期重新训练的需求。
  • 降低自定义任务的门槛: 最终用户只需提供几段期望动作的示例视频;Tether 将推断出新的对象实例,实现即时技能获取。
  • 成本效益高的数据集生成: 企业可以在不支付众包标注费用的情况下积累大量高质量的模仿数据集,加速视觉引导操作的研究。

Limitations & Future Work

  • Open‑Loop Dependence: 该扭曲策略在执行过程中不会对意外扰动作出响应;引入在线反馈可能提升可靠性。
  • Keypoint Ambiguity: 语义关键点检测在高度遮挡或缺乏纹理的物体上可能失败,限制了其在杂乱场景中的适用性。
  • Scalability of Task Selection: 当前基于语言模型的任务选择器在一组预定义任务上表现良好;将其扩展到开放式任务空间仍是一个未解决的挑战。
  • Future Directions: 作者建议更紧密地耦合扭曲的 open‑loop 控制器与 closed‑loop 学习器,加入更丰富的多模态 grounding(例如触觉反馈),并将框架扩展到多机器人协同玩法。

作者

  • William Liang
  • Sam Wang
  • Hung-Ju Wang
  • Osbert Bastani
  • Yecheng Jason Ma
  • Dinesh Jayaraman

论文信息

  • arXiv ID: 2603.03278v1
  • 分类: cs.RO, cs.AI, cs.CV
  • 出版日期: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……