[论文] Zero-shot 交互感知

发布: (2026年2月21日 GMT+8 01:30)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.18374v1

概述

本文介绍了 Zero‑Shot Interactive Perception (ZS‑IP),一个框架,使机器人能够在没有任何特定任务训练的情况下推理该做什么。通过将视觉语言模型(VLM)与一组“推线”——轻量级的二维视觉线索,编码推力对物体的影响——相结合,系统能够决定何时推、拉或抓取,以回答语义查询(例如,“红色杯子在哪里?”),即使物体被遮挡或隐藏。

关键贡献

  • Pushlines: 一种新颖的视觉增强,将可行的推送方向直接编码在图像上,使 VLM 能够理解超越简单关键点的接触丰富的可供性。
  • 增强观察 (EO) 模块: 将传统关键点与 pushlines 合并,为 VLM 提供更丰富的上下文,以实现零样本推理。
  • 记忆引导的动作选择: 一个轻量级的情景记忆,存储最近的观察和动作,使 VLM 能进行上下文感知的语义查找。
  • 统一控制器: 纯粹基于 VLM 的文本输出执行推、拉或抓取动作,无需单独的运动规划网络。
  • 在 7‑DOF Franka Panda 上的实证验证: 在需要推开以发现隐藏物体的任务上,表现优于被动感知基线(如 MOKA),同时保留无关的场景元素。

方法论

  1. 感知前端 – 机器人捕获工作空间的 RGB‑D 图像。叠加两组标注:

    • 关键点(标准对象标志)和
    • 推线 – 在图像上绘制的短线段,指示每个可见表面的可行推送方向。这些由深度几何和接触稳定性启发式自动生成。
  2. 视觉语言模型 (VLM) – 预训练的 VLM(例如基于 CLIP 的)接收带有增强信息的图像以及自然语言查询(“蓝色块在绿色盒子后面吗?”)。由于 VLM 从未见过具体任务,它依赖其广泛的视觉知识以及推线提示来推断一个合理的答案。

  3. 记忆模块 – 每次交互后,系统记录观察、VLM 的文本响应以及执行的动作。当出现新查询时,会查询记忆以提供上下文(例如,“我们已经向左侧推过,所以对象一定在右侧”)。

  4. 动作规划器 / 控制器 – VLM 的文本决策(例如,“向左中部推”)被解析为运动原语(推、拉或抓取)。控制器将其转换为 Franka Panda 的关节轨迹,遵守安全约束和碰撞规避。

  5. 迭代循环 – 机器人重复感知 → VLM 推理 → 记忆检索 → 动作,直至查询得到解决或达到超时。

结果与发现

MetricZS‑IP (push)MOKA (baseline)Passive Vision
成功率(对象被揭示)87 %62 %48 %
每次查询的平均推送次数1.32.13.0
非目标干扰(对象被非故意移动)4 %9 %12 %
查询延迟(秒)5.27.86.4
  • Pushlines显著提升推送精度 – VLM可以直接“看到”推送将接触的位置,从而减少无效动作。
  • 记忆引导降低冗余动作 – 系统很少重复相同的推送方向,减少交互步骤。
  • 语义正确性 – 在93 %的情况下,最终答案与真实的对象位置相匹配,表明零-shot VLM推理结合物理交互能够可靠地解决遮挡问题。

实际意义

  • 快速原型开发用于仓库机器人: 工程师可以部署能够理解高级指令(“把红色盒子拿给我”)的机器人,而无需为每个新物品手工构建感知流水线。
  • 家庭/办公室服务机器人: Pushlines 使机器人能够通过轻推物体来整理凌乱的桌面或货架,这种能力很难用静态视觉模型编码。
  • 降低数据收集成本: 由于 ZS‑IP 零样本工作,公司可以避免为每个新操作场景进行昂贵的标注活动。
  • 安全感知交互: 记忆模块帮助避免对易碎物品的无谓干扰,使该方法适用于协作环境。

限制与未来工作

  • 对深度质量的依赖: 推线生成假设深度数据相对干净;噪声传感器可能产生误导性的推送提示。
  • 记忆的可扩展性: 当前的情景记忆随存储步骤线性增长;更大、更长时域的任务可能需要更复杂的检索方式(例如,学习的嵌入)。
  • 动作库仅限于推/拉/抓取: 扩展到更复杂的原语(例如,滑动、滚动)将需要更丰富的增强。
  • 对新对象类别的泛化能力: 虽然是零样本,但对于视觉特征远离 VLM 预训练分布的对象,性能会下降;未来工作可以加入少样本微调或领域适应。

作者

  • Venkatesh Sripada
  • Frank Guerin
  • Amir Ghalamzan

论文信息

  • arXiv ID: 2602.18374v1
  • 分类: cs.RO, cs.AI
  • 发表日期: 2026年2月20日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »