[Paper] SpaceTools:工具增强的空间推理 via Double Interactive RL
发布: (2025年12月4日 GMT+8 02:50)
6 min read
原文: arXiv
Source: arXiv - 2512.04069v1
概览
本文提出了 SpaceTools,一个新框架,使大型视觉‑语言模型(VLM)能够通过学习调用和组合多个视觉“工具”(例如深度估计器、分割网络、姿态检测器)来进行精确几何推理。通过使用 双交互强化学习(DIRL) 对模型进行训练,作者在多个基准上实现了最先进的空间推理,并在真实的 7 自由度机器人上展示了可靠的操作能力。
关键贡献
- DIRL 训练流水线 – 两阶段强化学习方案,首先使用专家工具‑专员示范教会 VLM,然后让其探索并完善多工具协同。
- 工具增强的空间推理 – 模型能够在运行时选择、调用并融合多个视觉工具的输出,而不是依赖固定流水线或手工提示。
- SpaceTools 模型 – 在 RoboSpatial‑Home(比监督微调提升 12 %,比普通 RL 提升 16 %)、BLINK 和 BOP‑ASK 基准上取得了最高报告分数。
- 真实世界验证 – 该方法在 7‑DOF 机械臂上部署,展示了对需要米级精度的抓取‑放置和姿态调整任务的鲁棒性。
- 开源发布 – 代码、预训练检查点和交互式演示均公开提供。
方法论
- 工具套件 – 系统集成了现成的视觉模块(深度、语义分割、物体姿态估计)。每个工具可以通过自然语言指令查询,并返回结构化输出(例如深度图)。
- 教学阶段
- 工具专员:通过交互式 RL 训练的单工具代理,掌握特定推理子任务(如“找到最近的杯子”)。
- 前沿模型:能够调用任意工具的更大 VLM,但尚未具备协同技能。
- 将专员的示范与前沿模型的轨迹混合,构建课程,展示 该做什么 与 如何调用正确工具。
- 探索阶段 – 前沿模型继续使用 RL 训练,奖励基于任务成功(如正确的空间关系分类),并对不必要的工具调用施加惩罚,从而鼓励高效、目的明确的工具使用。
- 策略架构 – VLM 的语言编码器与轻量级控制器融合,控制器预测工具选择分布并生成所选工具的文本查询。工具的输出再反馈给语言模型,形成感知‑行动闭环。
结果与发现
| 基准 | 之前的 SOTA | SpaceTools (DIRL) | 提升 |
|---|---|---|---|
| RoboSpatial‑Home | 68.4 % | 80.5 % | +12 % |
| BLINK(空间 QA) | 71.2 % | 78.9 % | +7.7 % |
| BOP‑ASK(姿态 QA) | 64.0 % | 73.5 % | +9.5 % |
- 工具使用效率:平均每个查询仅调用 1.8 个工具,而朴素的穷举方法需调用 3.4 个。
- 真实机器人测试:在需要亚厘米对齐的 7‑DOF 抓放任务中成功率为 94 %,显著优于仅使用单一深度估计器的基线 VLM(71 % 成功率)。
- 消融实验:去除教学阶段会导致性能下降约 8 %,验证了专家示范对多工具协同的重要性。
实际意义
- 具身 AI 与机器人 – 开发者可以将 SpaceTools 插入现有机器人堆栈,为代理提供米级空间感知,而无需手工构建感知流水线。
- 模块化 AI 服务 – DIRL 框架可复用于教会 VLM 编排任意 API(如 OCR、3‑D 重建),为更灵活的 AI 助手打开大门。
- 降低工程开销 – 系统学习最优的工具调用顺序,省去手动串联深度 → 分割 → 姿态模型的时间和计算预算。
- 提升混合现实 UI – 需要精确物体放置的应用(AR 家具布局、远程遥控)可利用模型在运行时请求恰当工具的能力。
局限性与未来工作
- 工具依赖 – 性能受底层视觉工具质量影响;噪声较大的深度或姿态估计器仍会导致结果下降。
- 工具集合的可扩展性 – 虽然 DIRL 能很好地处理少量工具,但随着模块数量增至数十,搜索空间会快速膨胀,需要更智能的课程或层次选择策略。
- 对未见域的泛化 – 基准主要聚焦于室内家庭场景;扩展到室外或工业环境可能需要域特定的工具微调。
- 作者提出的未来方向 包括:
- 层次化 DIRL,以管理更大的工具库。
- 根据任务难度自适应工具选择的课程学习。
- 与低层机器人控制器更紧密的集成,实现闭环操作。
作者
- Siyi Chen
- Mikaela Angelina Uy
- Chan Hee Song
- Faisal Ladhak
- Adithyavairavan Murali
- Qing Qu
- Stan Birchfield
- Valts Blukis
- Jonathan Tremblay
论文信息
- arXiv ID: 2512.04069v1
- 分类: cs.CV, cs.RO
- 发表时间: 2025 年 12 月 3 日
- PDF: Download PDF