[论文] NovaPlan:Zero-Shot 长时程操作通过闭环视频语言规划
发布: (2026年2月24日 GMT+8 02:35)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.20119v1
概览
NovaPlan 解决了机器人领域最棘手的挑战之一:让机器人在 没有任何特定任务训练 的情况下执行多步骤、开放式的操作任务。通过将大型视觉语言模型(VLM)与基于视频的规划以及几何感知的低层控制器相结合,系统能够在闭环中 思考、观察、行动,并在运行时自动从错误中恢复。
关键贡献
- Zero‑shot hierarchical planning – 一个由 VLM 驱动的高层规划器将任意自然语言指令分解为子目标,并持续监控执行过程。
- Closed‑loop video‑based imagination – 系统生成所需子目标的短视频片段,提取物体关键点和人手姿势,并将其用作机器人的运动先验。
- Dynamic prior switching – 轻量级选择器根据视觉条件(例如遮挡、深度噪声)在以物体为中心和以手为中心的先验之间切换,保持机器人运动的稳定性。
- Autonomous error recovery – 当低层动作失败时,高层 VLM 会重新规划剩余步骤,实现无需人工干预的稳健长时程行为。
- Broad evaluation – 在三个复杂装配任务和功能操作基准(FMB)上进行演示,性能超越了之前的零样本基线。
方法论
- High‑level semantic planner – 预训练的 vision‑language model 接收用户的自然语言指令(例如,“组装玩具车”),并生成一系列文本子目标(例如,“拾起车轮”,“将车轮装到轴上”)。
- Closed‑loop monitoring – 在每个子目标完成后,机器人将摄像头画面回传给 VLM。如果观察到的状态与想象的结果出现偏差,规划器会修改剩余的计划。
- Video imagination & prior extraction – 对于每个子目标,视频生成模型会合成一段人类执行该步骤的短视频。系统从该视频中提取:
- Object keypoints(例如,块体的角点),用于确定机器人应抓取或放置物体的位置。
- Human hand poses,提供运动学轨迹。
- Prior selection & low‑level control – 轻量级分类器评估视觉可靠性(遮挡、深度误差),并选择更可信的先验。选中的先验随后通过几何感知控制器转换为关节空间指令,以遵守碰撞约束。
- Iterative execution – 机器人执行低层运动,回传传感器数据,循环重复,直至完整任务完成。
Source: …
结果与发现
| 任务 / 基准 | 成功率(Zero‑Shot) | 对比基线 | 显著行为 |
|---|---|---|---|
| 玩具车装配(4 步) | 87 % | 仅 VLM 规划 (45 %) | 抓取失误后重新规划,完成装配。 |
| 货架堆叠(5 个物体) | 81 % | 仅视频先验 (58 %) | 手部姿态被遮挡时切换到对象关键点先验。 |
| 功能操作基准 (FMB) | 73 %(10 项任务平均) | 现有零样本最先进先验 (62 %) | 展示了灵巧的错误恢复,例如重新抓取滑落的物体。 |
关键要点
- 闭环 VLM 监控 显著降低了错误传播;一次失误很少会导致整个任务失败。
- 先验切换 在视觉条件困难时提升了鲁棒性,使轨迹更平滑。
- 所有能力均在 无需任何任务特定示例或微调 的情况下出现,验证了零样本的主张。
实际意义
- Rapid prototyping for new tasks – 工程师可以向机器人提供一条简洁的英文指令,让 NovaPlan 生成可行的执行计划,从而降低数据收集和标注成本。
- Adaptive manufacturing cells – 在产品型号频繁变化的柔性工厂中,NovaPlan 能够即时重新配置操作序列,处理意外的部件放置或轻微卡阻。
- Assistive robotics – 家庭助理机器人可以理解用户指令(如“摆好餐具”),并在盘子滑落时优雅地恢复,使其更安全、更可靠。
- Tool‑agnostic development – 由于系统依赖通用的视频生成和视觉语言模型(VLM),它可以与现有的机器人平台(ROS、MoveIt)集成,而无需定制的感知流水线。
限制与未来工作
- 依赖视频生成质量 – 想象不佳的片段(例如光照不真实)可能破坏关键点提取,导致在高度杂乱场景中的性能受限。
- 深度传感器精度 – 当深度测量噪声较大时,几何控制器仍会受影响,尤其是对反光或透明物体。
- VLM 监控的可扩展性 – 实时闭环推理可能在边缘硬件上成为瓶颈;未来工作可探索轻量级蒸馏。
- 扩展到非刚性操作 – 当前实验聚焦于刚性物体;处理可变形物品(如布料、食物)将需要更丰富的先验,可能还需触觉反馈。
作者计划探索更紧密的触觉感知集成,提升视频先验在域迁移下的鲁棒性,并在更大规模的工业装配线对 NovaPlan 进行基准测试。
作者
- Jiahui Fu
- Junyu Nan
- Lingfeng Sun
- Hongyu Li
- Jianing Qian
- Jennifer L. Barry
- Kris Kitani
- George Konidaris
论文信息
- arXiv ID: 2602.20119v1
- 分类: cs.RO, cs.AI, cs.CV
- 出版时间: 2026年2月23日
- PDF: 下载 PDF