[论文] NovaPlan:Zero-Shot 长时程操作通过闭环视频语言规划

发布: (2026年2月24日 GMT+8 02:35)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.20119v1

概览

NovaPlan 解决了机器人领域最棘手的挑战之一:让机器人在 没有任何特定任务训练 的情况下执行多步骤、开放式的操作任务。通过将大型视觉语言模型(VLM)与基于视频的规划以及几何感知的低层控制器相结合,系统能够在闭环中 思考观察行动,并在运行时自动从错误中恢复。

关键贡献

  • Zero‑shot hierarchical planning – 一个由 VLM 驱动的高层规划器将任意自然语言指令分解为子目标,并持续监控执行过程。
  • Closed‑loop video‑based imagination – 系统生成所需子目标的短视频片段,提取物体关键点和人手姿势,并将其用作机器人的运动先验。
  • Dynamic prior switching – 轻量级选择器根据视觉条件(例如遮挡、深度噪声)在以物体为中心和以手为中心的先验之间切换,保持机器人运动的稳定性。
  • Autonomous error recovery – 当低层动作失败时,高层 VLM 会重新规划剩余步骤,实现无需人工干预的稳健长时程行为。
  • Broad evaluation – 在三个复杂装配任务和功能操作基准(FMB)上进行演示,性能超越了之前的零样本基线。

方法论

  1. High‑level semantic planner – 预训练的 vision‑language model 接收用户的自然语言指令(例如,“组装玩具车”),并生成一系列文本子目标(例如,“拾起车轮”,“将车轮装到轴上”)。
  2. Closed‑loop monitoring – 在每个子目标完成后,机器人将摄像头画面回传给 VLM。如果观察到的状态与想象的结果出现偏差,规划器会修改剩余的计划。
  3. Video imagination & prior extraction – 对于每个子目标,视频生成模型会合成一段人类执行该步骤的短视频。系统从该视频中提取:
    • Object keypoints(例如,块体的角点),用于确定机器人应抓取或放置物体的位置。
    • Human hand poses,提供运动学轨迹。
  4. Prior selection & low‑level control – 轻量级分类器评估视觉可靠性(遮挡、深度误差),并选择更可信的先验。选中的先验随后通过几何感知控制器转换为关节空间指令,以遵守碰撞约束。
  5. Iterative execution – 机器人执行低层运动,回传传感器数据,循环重复,直至完整任务完成。

Source:

结果与发现

任务 / 基准成功率(Zero‑Shot)对比基线显著行为
玩具车装配(4 步)87 %仅 VLM 规划 (45 %)抓取失误后重新规划,完成装配。
货架堆叠(5 个物体)81 %仅视频先验 (58 %)手部姿态被遮挡时切换到对象关键点先验。
功能操作基准 (FMB)73 %(10 项任务平均)现有零样本最先进先验 (62 %)展示了灵巧的错误恢复,例如重新抓取滑落的物体。

关键要点

  • 闭环 VLM 监控 显著降低了错误传播;一次失误很少会导致整个任务失败。
  • 先验切换 在视觉条件困难时提升了鲁棒性,使轨迹更平滑。
  • 所有能力均在 无需任何任务特定示例或微调 的情况下出现,验证了零样本的主张。

实际意义

  • Rapid prototyping for new tasks – 工程师可以向机器人提供一条简洁的英文指令,让 NovaPlan 生成可行的执行计划,从而降低数据收集和标注成本。
  • Adaptive manufacturing cells – 在产品型号频繁变化的柔性工厂中,NovaPlan 能够即时重新配置操作序列,处理意外的部件放置或轻微卡阻。
  • Assistive robotics – 家庭助理机器人可以理解用户指令(如“摆好餐具”),并在盘子滑落时优雅地恢复,使其更安全、更可靠。
  • Tool‑agnostic development – 由于系统依赖通用的视频生成和视觉语言模型(VLM),它可以与现有的机器人平台(ROS、MoveIt)集成,而无需定制的感知流水线。

限制与未来工作

  • 依赖视频生成质量 – 想象不佳的片段(例如光照不真实)可能破坏关键点提取,导致在高度杂乱场景中的性能受限。
  • 深度传感器精度 – 当深度测量噪声较大时,几何控制器仍会受影响,尤其是对反光或透明物体。
  • VLM 监控的可扩展性 – 实时闭环推理可能在边缘硬件上成为瓶颈;未来工作可探索轻量级蒸馏。
  • 扩展到非刚性操作 – 当前实验聚焦于刚性物体;处理可变形物品(如布料、食物)将需要更丰富的先验,可能还需触觉反馈。

作者计划探索更紧密的触觉感知集成,提升视频先验在域迁移下的鲁棒性,并在更大规模的工业装配线对 NovaPlan 进行基准测试。

作者

  • Jiahui Fu
  • Junyu Nan
  • Lingfeng Sun
  • Hongyu Li
  • Jianing Qian
  • Jennifer L. Barry
  • Kris Kitani
  • George Konidaris

论文信息

  • arXiv ID: 2602.20119v1
  • 分类: cs.RO, cs.AI, cs.CV
  • 出版时间: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »