[论文] 指出你的意思：Visually Grounded Instruction Policy

机器人 UI: 开发者可以构建简单的“点击即执行”界面用于远程操作或辅助机器人——用户只需在摄像头画面中点击目标，机器人即可可靠地执行指令。
数据高效扩展: 自动标注流水线意味着可以从已有的视频日志中生成数千条有根基的指令，而无需昂贵的人工标注，从而加速产品开发周期。
提升安全性: 通过明确指向目标对象，系统减少了对邻近物体的意外交互——这对家用或仓库机器人尤为关键。
跨模态调试: 边界框叠加为开发者提供了可解释的钩子，能够直观看到策略关注的具体内容，简化故障案例的排查。

发布: 1周前 (2025年12月22日 GMT+8 08:44)

6 min read

原文: arXiv

Source: arXiv - 2512.18933v1

概览

本文提出了 Point‑VLA，一种即插即用的策略，通过显式的视觉提示（如边框“点”）来丰富视觉‑语言‑动作（VLA）代理的语言指令。通过向模型提供关于要操作哪个对象的像素级提示，系统显著降低了指代歧义——尤其在杂乱或分布外（OOD）环境中——同时保持底层 VLA 架构不变。

基础 VLA 模型 – 作者从标准的 Vision‑Language‑Action 架构出发，该架构接收 RGB 帧和文本指令，然后输出低层控制（例如机器人臂的速度）。
点位增强 – 推理时，用户（或上游感知模块）提供目标物体的边界框。框的坐标被编码为一个小的 2‑D 位置嵌入，并与语言 token 嵌入拼接。
训练数据生成 –
- 预训练的目标检测器扫描大型视频‑指令数据集并提出候选框。
- 语言模型改写原始指令以引用检测到的物体（例如 “pick up the red mug” → “pick up the red mug inside box #3”）。
- 只需要人工标注者进行一次简短的验证步骤，以过滤明显错误，从而保持流水线低成本。
微调 – 增强后的指令（文本 + 点位）输入到 VLA 策略中，在新创建的数据集上进行微调。由于视觉编码器被冻结，训练快速且内存高效。

场景	仅文本 VLA	Point‑VLA（我们的）	相对 ↑
干净的桌面（分布内）	78 % 成功	86 % 成功	+8 %
凌乱的厨房（分布外对象）	45 % 成功	68 % 成功	+23 %
新颖的物体类别（训练中未见）	31 % 成功	55 % 成功	+24 %