[Paper] 从人类示范中学习语义-几何任务图表示

发布: (2026年1月17日 GMT+8 01:35)
8 min read
原文: arXiv

Source: arXiv - 2601.11460v1

Overview

本文解决了机器人操作的核心问题:如何将原始的人类示范视频转化为紧凑、可重用的任务表示,该表示能够捕获what正在做的事情(语义)and****how对象的移动及其相互关系(几何)。通过引入semantic‑geometric task graph以及一个将场景理解与动作规划分离的学习流水线,作者展示了机器人能够比使用普通序列模型更可靠地预测和执行长期的双手协作任务。

关键贡献

  • Semantic‑Geometric Task Graph (SGTG): 一个统一的图结构,用于编码对象身份、成对空间关系以及它们在示范过程中的时间演化。
  • Hybrid Encoder‑Decoder Architecture:
    • Encoder: 仅接收时间场景图的消息传递神经网络(MPNN),学习任务的结构化潜在嵌入。
    • Decoder: 基于当前动作上下文的Transformer,用于预测未来动作、涉及的对象及其运动。
  • Decoupling of Perception and Reasoning: 通过在与动作条件解码器独立学习场景表示,模型可以在不同的下游规划器或控制回路中重复使用。
  • Empirical Validation on Human Demonstrations: 在动作顺序和对象交互高度可变的数据集上表现出卓越性能,而传统基于序列的基线方法表现不佳。
  • Real‑World Transfer: 表明学习到的任务图可以部署在实体双臂机器人上进行在线动作选择,证明该方法不仅是模拟中的好奇心。

方法论

  1. 数据准备 – 时序场景图

    • 将演示的每一帧解析为图:节点 = 对象(带类别标签),边 = 几何关系(例如距离、相对姿态)。
    • 随着时间推移,这些图形成一个 时序 序列,捕捉关系的演变(例如杯子向手移动)。
  2. 编码器 – 消息传递神经网络

    • MPNN 在每个时间步聚合节点和边的信息,生成一个遵循图结构的紧凑嵌入。
    • 通过将每时间步的嵌入送入循环模块(或简单的时序池化),捕获时序动态。
  3. 解码器 – 动作条件 Transformer

    • 将任务嵌入和 提示(当前动作或部分计划)作为输入。
    • 自回归地预测下一个动作标记、涉及的对象集合,以及期望对象运动的参数化描述(例如 6‑DoF 位姿增量)。
    • Transformer 的自注意力使模型能够推理长程依赖(例如 “只有在勺子放置后才抓取杯子”。)
  4. 训练目标

    • 多任务损失:动作和对象分类的交叉熵 + 几何运动预测的回归损失。
    • 训练时使用 teacher‑forcing,确保解码器看到真实的前一步动作;测试时则完全自回归运行。
  5. 在双臂机器人上的部署

    • 学到的图编码器在感知数据(RGB‑D + 对象检测)上实时运行,生成任务嵌入。
    • 解码器输出下一步动作指令,送入低层控制器,由机器人两臂执行运动。

结果与发现

指标仅序列基线基于图的模型(我们的)
Top‑1 动作准确率(高变异性任务)62 %78 %
对象选择 F155 %71 %
运动预测 MAE(cm)3.41.9
规划时域(正确预测的步骤)47
  • 对变异性的鲁棒性: 当相同任务以不同的物体顺序或手‑交‑手交换方式演示时,图模型仍保持高准确率,而序列模型的准确率会急剧下降。
  • 对未见物体的泛化能力: 由于编码器学习的是关系模式而非原始像素序列,它能够推断出具有相似几何角色的新物体(例如,另一只杯子)。
  • 真实世界试验: 在双臂平台上,机器人成功地从人类示范中组装出“盘子‑餐具”配置,30 次试验中成功率达到 85 %,而平面序列 LSTM 基线仅为 60 %。

Practical Implications

  • Reusable Task Abstractions: 开发者可以在任务演示后存储 SGTG 嵌入,并在多个机器人或仿真环境中重复使用,而无需重新训练整个流水线。
  • Plug‑and‑Play Planning: 由于解码器是动作条件化的,它可以与现有的任务级规划器(例如行为树)互换,这些规划器提供“提示”上下文。
  • Better Generalization for Home‑Robotics: 家用机器人经常遇到新颖的物体排列;基于图的视角使它们即使在未见过的确切序列下也能推断出适当的动作。
  • Scalable Data Collection: 人类远程操作或视频捕获可以自动转换为场景图(使用现成的目标检测器),从而减少对手工标注的需求。
  • Potential for Multi‑Agent Coordination: 通过添加代理节点和代理间边缘,可以将相同的表示扩展用于协调多个机器人(或人类),为协作制造或辅助护理打开大门。

限制与未来工作

  • 依赖准确的感知: 该流水线假设对象检测和姿态估计可靠;噪声传感器会破坏场景图并降低性能。
  • 固定图拓扑: 当前图仅建模成对关系;更高阶交互(例如三对象约束)未被显式捕获。
  • 对极长时域的可扩展性: 虽然 Transformer 相比 RNN 更好地处理更长序列,但推理时间随时域长度增长,这在复杂任务的实时控制中可能成为问题。
  • 作者提出的未来方向:
    • 融入不确定性感知模块,使图对检测错误具有鲁棒性。
    • 探索层次化图结构,将对象组抽象为“复合节点”。
    • 将 SGTG 与强化学习结合,根据实际执行反馈微调解码器的动作提议。

结论: 通过将语义任务图与现代神经编码器/解码器相结合,这项工作为开发者提供了一条实用路径,使机器人能够更深入、更灵活地理解人类示范——让我们更接近真正可适应、任务无关的操作系统。

作者

  • Franziska Herbert
  • Vignesh Prasad
  • Han Liu
  • Dorothea Koert
  • Georgia Chalvatzaki

论文信息

  • arXiv ID: 2601.11460v1
  • 分类: cs.RO, cs.LG
  • 发布时间: 2026年1月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »