[论文] NovaPlan：Zero-Shot 长时程操作通过闭环视频语言规划

发布: 3天前 (2026年2月24日 GMT+8 02:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.20119v1

概览

NovaPlan 解决了机器人领域最棘手的挑战之一：让机器人在 没有任何特定任务训练 的情况下执行多步骤、开放式的操作任务。通过将大型视觉语言模型（VLM）与基于视频的规划以及几何感知的低层控制器相结合，系统能够在闭环中思考、观察、行动，并在运行时自动从错误中恢复。

关键贡献

Zero‑shot hierarchical planning – 一个由 VLM 驱动的高层规划器将任意自然语言指令分解为子目标，并持续监控执行过程。
Closed‑loop video‑based imagination – 系统生成所需子目标的短视频片段，提取物体关键点和人手姿势，并将其用作机器人的运动先验。
Dynamic prior switching – 轻量级选择器根据视觉条件（例如遮挡、深度噪声）在以物体为中心和以手为中心的先验之间切换，保持机器人运动的稳定性。
Autonomous error recovery – 当低层动作失败时，高层 VLM 会重新规划剩余步骤，实现无需人工干预的稳健长时程行为。
Broad evaluation – 在三个复杂装配任务和功能操作基准（FMB）上进行演示，性能超越了之前的零样本基线。

方法论

High‑level semantic planner – 预训练的 vision‑language model 接收用户的自然语言指令（例如，“组装玩具车”），并生成一系列文本子目标（例如，“拾起车轮”，“将车轮装到轴上”）。
Closed‑loop monitoring – 在每个子目标完成后，机器人将摄像头画面回传给 VLM。如果观察到的状态与想象的结果出现偏差，规划器会修改剩余的计划。
Video imagination & prior extraction – 对于每个子目标，视频生成模型会合成一段人类执行该步骤的短视频。系统从该视频中提取：
- Object keypoints（例如，块体的角点），用于确定机器人应抓取或放置物体的位置。
- Human hand poses，提供运动学轨迹。
Prior selection & low‑level control – 轻量级分类器评估视觉可靠性（遮挡、深度误差），并选择更可信的先验。选中的先验随后通过几何感知控制器转换为关节空间指令，以遵守碰撞约束。
Iterative execution – 机器人执行低层运动，回传传感器数据，循环重复，直至完整任务完成。

Source: …

结果与发现

任务 / 基准	成功率（Zero‑Shot）	对比基线	显著行为
玩具车装配（4 步）	87 %	仅 VLM 规划 (45 %)	抓取失误后重新规划，完成装配。
货架堆叠（5 个物体）	81 %	仅视频先验 (58 %)	手部姿态被遮挡时切换到对象关键点先验。
功能操作基准 (FMB)	73 %（10 项任务平均）	现有零样本最先进先验 (62 %)	展示了灵巧的错误恢复，例如重新抓取滑落的物体。

关键要点

闭环 VLM 监控 显著降低了错误传播；一次失误很少会导致整个任务失败。
先验切换 在视觉条件困难时提升了鲁棒性，使轨迹更平滑。
所有能力均在 无需任何任务特定示例或微调 的情况下出现，验证了零样本的主张。

实际意义

Rapid prototyping for new tasks – 工程师可以向机器人提供一条简洁的英文指令，让 NovaPlan 生成可行的执行计划，从而降低数据收集和标注成本。
Adaptive manufacturing cells – 在产品型号频繁变化的柔性工厂中，NovaPlan 能够即时重新配置操作序列，处理意外的部件放置或轻微卡阻。
Assistive robotics – 家庭助理机器人可以理解用户指令（如“摆好餐具”），并在盘子滑落时优雅地恢复，使其更安全、更可靠。
Tool‑agnostic development – 由于系统依赖通用的视频生成和视觉语言模型（VLM），它可以与现有的机器人平台（ROS、MoveIt）集成，而无需定制的感知流水线。

限制与未来工作

依赖视频生成质量 – 想象不佳的片段（例如光照不真实）可能破坏关键点提取，导致在高度杂乱场景中的性能受限。
深度传感器精度 – 当深度测量噪声较大时，几何控制器仍会受影响，尤其是对反光或透明物体。
VLM 监控的可扩展性 – 实时闭环推理可能在边缘硬件上成为瓶颈；未来工作可探索轻量级蒸馏。
扩展到非刚性操作 – 当前实验聚焦于刚性物体；处理可变形物品（如布料、食物）将需要更丰富的先验，可能还需触觉反馈。

作者计划探索更紧密的触觉感知集成，提升视频先验在域迁移下的鲁棒性，并在更大规模的工业装配线对 NovaPlan 进行基准测试。

作者

Jiahui Fu
Junyu Nan
Lingfeng Sun
Hongyu Li
Jianing Qian
Jennifer L. Barry
Kris Kitani
George Konidaris

论文信息

arXiv ID: 2602.20119v1
分类: cs.RO, cs.AI, cs.CV
出版时间: 2026年2月23日
PDF: 下载 PDF

[论文] NovaPlan：Zero-Shot 长时程操作通过闭环视频语言规划

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉

[Paper] 测试时训练结合 KV 绑定 实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力