[论文] 指出你的意思:Visually Grounded Instruction Policy

发布: (2025年12月22日 GMT+8 08:44)
6 min read
原文: arXiv

Source: arXiv - 2512.18933v1

概览

本文提出了 Point‑VLA,一种即插即用的策略,通过显式的视觉提示(如边框“点”)来丰富视觉‑语言‑动作(VLA)代理的语言指令。通过向模型提供关于要操作哪个对象的像素级提示,系统显著降低了指代歧义——尤其在杂乱或分布外(OOD)环境中——同时保持底层 VLA 架构不变。

关键贡献

  • 视觉基础指令策略:引入轻量级的“指点‑说”界面,将自然语言指令与边界框坐标耦合。
  • 自动标注流水线:利用预训练的目标检测器和语言模型,构建规模化的语言‑点对指令数据集,几乎无需人工标注。
  • 即插即用设计:Point‑VLA 可直接嵌入任何现有的仅文本 VLA 模型(例如基于 CLIP 的策略),无需重新训练视觉编码器。
  • 稳健的实证提升:在真实世界的指代任务上表现出一致的性能提升,尤其在视觉杂乱严重或未见过的物体类别上。
  • 泛化分析:证明像素级定位帮助策略比纯文本提示更好地外推到新场景和新物体。

方法论

  1. 基础 VLA 模型 – 作者从标准的 Vision‑Language‑Action 架构出发,该架构接收 RGB 帧和文本指令,然后输出低层控制(例如机器人臂的速度)。
  2. 点位增强 – 推理时,用户(或上游感知模块)提供目标物体的边界框。框的坐标被编码为一个小的 2‑D 位置嵌入,并与语言 token 嵌入拼接。
  3. 训练数据生成
    • 预训练的目标检测器扫描大型视频‑指令数据集并提出候选框。
    • 语言模型改写原始指令以引用检测到的物体(例如 “pick up the red mug” → “pick up the red mug inside box #3”)。
    • 只需要人工标注者进行一次简短的验证步骤,以过滤明显错误,从而保持流水线低成本。
  4. 微调 – 增强后的指令(文本 + 点位)输入到 VLA 策略中,在新创建的数据集上进行微调。由于视觉编码器被冻结,训练快速且内存高效。

结果与发现

场景仅文本 VLAPoint‑VLA(我们的)相对 ↑
干净的桌面(分布内)78 % 成功86 % 成功+8 %
凌乱的厨房(分布外对象)45 % 成功68 % 成功+23 %
新颖的物体类别(训练中未见)31 % 成功55 % 成功+24 %
  • 成功指标:任务完成率(例如,“抓起目标”,“推动正确的方块”)。
  • 消融实验:移除点嵌入会使性能回落到仅文本基线,证实视觉提示是提升的驱动因素。
  • 泛化能力:Point‑VLA 在完全新布局的场景中保持 >60 % 成功率,而基线跌至 <40 %。

实际意义

  • 机器人 UI: 开发者可以构建简单的“点击即执行”界面用于远程操作或辅助机器人——用户只需在摄像头画面中点击目标,机器人即可可靠地执行指令。
  • 数据高效扩展: 自动标注流水线意味着可以从已有的视频日志中生成数千条有根基的指令,而无需昂贵的人工标注,从而加速产品开发周期。
  • 提升安全性: 通过明确指向目标对象,系统减少了对邻近物体的意外交互——这对家用或仓库机器人尤为关键。
  • 跨模态调试: 边界框叠加为开发者提供了可解释的钩子,能够直观看到策略关注的具体内容,简化故障案例的排查。

限制与未来工作

  • 依赖检测器质量:如果上游目标检测器定位错误或未能检测到目标,策略会继承该错误。
  • 边界框粒度:非常小或严重遮挡的物体仍然是挑战;更丰富的掩码或关键点提示可能有帮助。
  • 需要人为参与:虽然标注流程成本低,但在真实环境中完全自主生成高质量点仍是未解决的问题。
  • 未来方向:作者建议探索多模态点(例如深度或分割掩码),扩展到多目标指令,并整合可在检测器不可用时从模糊语言中推断点的学习注意力机制。

作者

  • Hang Yu
  • Juntu Zhao
  • Yufeng Liu
  • Kaiyu Li
  • Cheng Ma
  • Di Zhang
  • Yingdong Hu
  • Guang Chen
  • Junyuan Xie
  • Junliang Guo
  • Junqiao Zhao
  • Yang Gao

论文信息

  • arXiv ID: 2512.18933v1
  • 分类: cs.CV, cs.RO
  • 发表时间: 2025年12月22日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »