Tether：自主功能性玩耍与Correspondence-Driven Trajectory Warping

发布: 2天前 (2026年3月4日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.03278v1

概述

本文介绍了 Tether，一个框架，使机器人能够通过复用少量人工提供的示例来自主“玩耍”。通过使用语义关键点对应关系将示例动作映射到新场景，Tether 能够稳健地执行各种家务任务，并持续生成自己的训练数据，从而大幅降低昂贵的人类监督需求。

关键贡献

Correspondence‑driven action warping: 一个开放回路策略，将 ≤10 个源演示中的动作映射到新场景，通过锚定到语义上有意义的关键点（例如 “handle”、 “button”）实现。
Data‑efficient functional play loop: 一个自监督循环（任务选择 → 执行 → 评估 → 改进），由视觉语言模型驱动，能够自主生成高质量轨迹。
Real‑world multi‑task deployment: 首个系统能够在物理类家庭环境中实现数小时的自主多对象玩耍，仅从少量演示开始。
Closed‑loop policy improvement: 证明自收集的玩耍数据始终提升下游模仿学习策略的性能，达到可与人类收集数据集相媲美的专家级行为。
Scalable dataset generation: 生成 >1,000 条专家级轨迹，无需额外人工标注，为大规模机器人学习流水线打开了可能。

方法论

演示库与关键点提取 – 机器人获得一个小规模的演示库（≤10）。对于每个演示，视觉‑语言模型（例如基于 CLIP 的模型）识别语义关键点（对象部位、可供性）。
对应匹配 – 在新的目标场景中，同一模型找到最佳匹配的关键点，建立源场景与目标场景之间的几何对应关系。
轨迹变形 – 将原始动作序列进行变换（缩放、旋转、平移），使其与匹配的关键点对齐，生成可直接在机器人上执行的开环策略。
自主演练循环 –
- 任务选择： 机器人查询语言模型，在当前场景下挑选一个合理的任务。
- 执行： 运行变形后的轨迹。
- 评估： 使用相同的视觉‑语言模型通过视觉反馈（例如对象状态变化）判断是否成功。
- 改进： 成功的运行被存储为新的演示；失败则触发重新采样或细化。
闭环模仿学习 – 累积的数据集用于训练一个神经策略，该策略接受视觉观测并输出动作，为未来任务闭环。

结果与发现

对变化的鲁棒性: Tether 在对象位移最高达 30 cm、方向变化 45° 的情况下成功，而朴素的演示重放失败率超过 80 %。
数据效率: 仅使用 5–10 个示例，系统在 7 项家务任务（如打开抽屉、按下开关）中生成了超过 1 000 条成功轨迹。
策略改进: 在自收集数据上训练的下游闭环模仿策略在未见任务上实现了 92 % 的成功率，性能与在等量人工收集数据上训练的策略相当。
游戏时长: 机器人在真实厨房式环境中自主连续进行多任务演练超过 12 + 小时，这是在如此低示例量下的首次实现。

Practical Implications

快速原型制作新机器人： 工程师可以仅通过少量手动调优的演示来启动机器人的能力，而无需耗时的数据收集。
部署后的持续学习： 部署在家庭或工厂的机器人可以在空闲期间“玩耍”以不断改进，减少开发者定期重新训练的需求。
降低自定义任务的门槛： 最终用户只需提供几段期望动作的示例视频；Tether 将推断出新的对象实例，实现即时技能获取。
成本效益高的数据集生成： 企业可以在不支付众包标注费用的情况下积累大量高质量的模仿数据集，加速视觉引导操作的研究。

Limitations & Future Work

Open‑Loop Dependence: 该扭曲策略在执行过程中不会对意外扰动作出响应；引入在线反馈可能提升可靠性。
Keypoint Ambiguity: 语义关键点检测在高度遮挡或缺乏纹理的物体上可能失败，限制了其在杂乱场景中的适用性。
Scalability of Task Selection: 当前基于语言模型的任务选择器在一组预定义任务上表现良好；将其扩展到开放式任务空间仍是一个未解决的挑战。
Future Directions: 作者建议更紧密地耦合扭曲的 open‑loop 控制器与 closed‑loop 学习器，加入更丰富的多模态 grounding（例如触觉反馈），并将框架扩展到多机器人协同玩法。

作者

William Liang
Sam Wang
Hung-Ju Wang
Osbert Bastani
Yecheng Jason Ma
Dinesh Jayaraman

论文信息

arXiv ID: 2603.03278v1
分类: cs.RO, cs.AI, cs.CV
出版日期: 2026年3月3日
PDF: 下载 PDF

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测（trajectory forecasting）和人体姿态预测（human pose prediction）这两个任务结合在一起。针对这两个任务，已经开发了专门的模型……

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

前馈Transformer模型推动了3D视觉的快速进展，但诸如VGGT和π³等最先进的方法的计算成本随……

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

病理报告生成仍然是一个相对未被充分探索的下游任务，主要是由于其 gigapixel 规模和复杂的形态异质性。

[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

许多关键的操作任务——例如食品准备、外科手术和工艺制作——对自主机器人仍然难以解决。这些任务的特征是…