[Paper] LookPlanGraph:具身指令跟随方法与 VLM 图增强
发布: (2025年12月24日 GMT+8 23:36)
6 min read
原文: arXiv
Source: arXiv - 2512.21243v1
概述
本文介绍了 LookPlanGraph,这是一种用于具身指令执行的新方法,在机器人执行任务的过程中保持其内部场景图的最新状态。通过持续将自我中心的视觉输入与视觉语言模型(VLM)融合,系统能够验证已有的对象先验并即时发现新的先验,从而在环境在规划与执行之间发生变化时显著提升鲁棒性。
关键贡献
- 动态场景图增强:将已知资产的静态图与来自机器人摄像头实时更新相结合。
- VLM 驱动的感知循环:使用大型视觉语言模型解释自我视角图像并映射到图节点(对象、位置、关系)。
- GraSIF 数据集:一个包含 514 条指令跟随任务的精心策划基准,覆盖 SayPlan Office、BEHAVIOR‑1K 和 VirtualHome RobotHow,并配有自动验证框架。
- 实证验证:在模拟(VirtualHome、OmniGibson)和真实机器人实验中,显示出相较于静态图基线的一致性能提升。
- 开源发布:代码、数据集和项目页面已公开,可促进可重复性和社区扩展。
方法论
- 初始图构建 – 在任务开始之前,会从已知资产(房间布局、家具、典型物体位置)构建一个 静态 场景图。该图包含关于物体可能出现位置的 先验 信息。
- LLM 规划器 – 大型语言模型接收自然语言指令和当前图,然后生成高级计划(例如,“从厨房台面上拿起杯子”)。
- 自我中心感知循环 – 当机器人执行计划时,其前置摄像头将图像流输送给视觉语言模型(如基于 CLIP 或 Flamingo 风格的模型)。VLM 提取物体标签、空间线索以及关系描述(“一只红色的杯子在桌子上”)。
- 图增补 – 将提取的信息与已有先验匹配:
- 验证 – 确认预期物体仍然位于图中所标记的位置。
- 发现 – 当 VLM 发现缺失或移动的物体时,插入新节点或更新位置。
- 重新规划(可选) – 如果图发生显著变化(例如未找到所需物体),可以使用更新后的图再次提示 LLM 调整计划。
整个管线在紧凑的感知‑规划循环中运行,使机器人能够在动态环境中作出响应,而无需从头重建完整图。
结果与发现
| 环境 | 基线(静态图) | LookPlanGraph | 相对提升 |
|---|---|---|---|
| VirtualHome(对象搬迁) | 62 % 成功 | 78 % | +16 % |
| OmniGibson(随机家具) | 55 % 成功 | 71 % | +16 % |
| 真实世界桌面任务 | 48 % 成功 | 66 % | +18 % |
- 更高的任务完成率:动态更新减少了因对象位置陈旧导致的失败模式。
- 对未见变化的鲁棒性:即使对象被移动到全新房间,VLM 仍能检测到,规划器相应地进行适配。
- 效率:图更新每帧仅需几毫秒,保持整体延迟适合实时控制。
GraSIF 基准测试还表明,该方法能够在多样的指令风格和场景复杂度之间实现可扩展性。
Practical Implications
- Home and office service robots can now handle everyday disturbances (e.g., a coffee mug moved to a different desk) without human intervention.
- Warehouse automation benefits from on‑the‑fly verification of item locations, reducing the need for costly periodic re‑scanning of the entire floor.
- Human‑robot collaboration becomes smoother: the robot can ask clarifying questions or re‑plan when it cannot locate a requested object, mirroring natural teamwork.
- Developer workflow: By exposing the graph‑augmentation module as a plug‑and‑play component, engineers can integrate it into existing LLM‑based planners with minimal code changes.
- Data efficiency: Since only the egocentric view is processed, the system avoids the overhead of building full 3‑D reconstructions, making it viable on edge devices with limited compute.
限制与未来工作
- 依赖 VLM 的准确性:视觉流中的误分类可能导致错误的图更新,尤其是对小物体或被遮挡的物体。
- 仍需静态先验:初始图必须包含合理的资产先验集合;完全未知的环境可能需要单独的发现阶段。
- 对大规模、杂乱空间的可扩展性:虽然当前实现能够处理典型的室内房间,但扩展到多房间设施可能需要层次化的图结构。
- 作者提出的未来方向 包括:集成深度传感器以实现更丰富的空间推理,学习优先验证哪些先验以节省计算资源,以及将方法扩展到多智能体场景,使多个机器人共享并更新公共图。
作者
- Anatoly O. Onishchenko
- Alexey K. Kovalev
- Aleksandr I. Panov
论文信息
- arXiv ID: 2512.21243v1
- 分类: cs.RO, cs.AI, cs.LG
- 出版日期: 2025年12月24日
- PDF: 下载 PDF