[Paper] SpaceTools:工具增强的空间推理 via Double Interactive RL

发布: (2025年12月4日 GMT+8 02:50)
6 min read
原文: arXiv

Source: arXiv - 2512.04069v1

概览

本文提出了 SpaceTools,一个新框架,使大型视觉‑语言模型(VLM)能够通过学习调用和组合多个视觉“工具”(例如深度估计器、分割网络、姿态检测器)来进行精确几何推理。通过使用 双交互强化学习(DIRL) 对模型进行训练,作者在多个基准上实现了最先进的空间推理,并在真实的 7 自由度机器人上展示了可靠的操作能力。

关键贡献

  • DIRL 训练流水线 – 两阶段强化学习方案,首先使用专家工具‑专员示范教会 VLM,然后让其探索并完善多工具协同。
  • 工具增强的空间推理 – 模型能够在运行时选择、调用并融合多个视觉工具的输出,而不是依赖固定流水线或手工提示。
  • SpaceTools 模型 – 在 RoboSpatial‑Home(比监督微调提升 12 %,比普通 RL 提升 16 %)、BLINK 和 BOP‑ASK 基准上取得了最高报告分数。
  • 真实世界验证 – 该方法在 7‑DOF 机械臂上部署,展示了对需要米级精度的抓取‑放置和姿态调整任务的鲁棒性。
  • 开源发布 – 代码、预训练检查点和交互式演示均公开提供。

方法论

  1. 工具套件 – 系统集成了现成的视觉模块(深度、语义分割、物体姿态估计)。每个工具可以通过自然语言指令查询,并返回结构化输出(例如深度图)。
  2. 教学阶段
    • 工具专员:通过交互式 RL 训练的单工具代理,掌握特定推理子任务(如“找到最近的杯子”)。
    • 前沿模型:能够调用任意工具的更大 VLM,但尚未具备协同技能。
    • 将专员的示范与前沿模型的轨迹混合,构建课程,展示 该做什么如何调用正确工具
  3. 探索阶段 – 前沿模型继续使用 RL 训练,奖励基于任务成功(如正确的空间关系分类),并对不必要的工具调用施加惩罚,从而鼓励高效、目的明确的工具使用。
  4. 策略架构 – VLM 的语言编码器与轻量级控制器融合,控制器预测工具选择分布并生成所选工具的文本查询。工具的输出再反馈给语言模型,形成感知‑行动闭环。

结果与发现

基准之前的 SOTASpaceTools (DIRL)提升
RoboSpatial‑Home68.4 %80.5 %+12 %
BLINK(空间 QA)71.2 %78.9 %+7.7 %
BOP‑ASK(姿态 QA)64.0 %73.5 %+9.5 %
  • 工具使用效率:平均每个查询仅调用 1.8 个工具,而朴素的穷举方法需调用 3.4 个。
  • 真实机器人测试:在需要亚厘米对齐的 7‑DOF 抓放任务中成功率为 94 %,显著优于仅使用单一深度估计器的基线 VLM(71 % 成功率)。
  • 消融实验:去除教学阶段会导致性能下降约 8 %,验证了专家示范对多工具协同的重要性。

实际意义

  • 具身 AI 与机器人 – 开发者可以将 SpaceTools 插入现有机器人堆栈,为代理提供米级空间感知,而无需手工构建感知流水线。
  • 模块化 AI 服务 – DIRL 框架可复用于教会 VLM 编排任意 API(如 OCR、3‑D 重建),为更灵活的 AI 助手打开大门。
  • 降低工程开销 – 系统学习最优的工具调用顺序,省去手动串联深度 → 分割 → 姿态模型的时间和计算预算。
  • 提升混合现实 UI – 需要精确物体放置的应用(AR 家具布局、远程遥控)可利用模型在运行时请求恰当工具的能力。

局限性与未来工作

  • 工具依赖 – 性能受底层视觉工具质量影响;噪声较大的深度或姿态估计器仍会导致结果下降。
  • 工具集合的可扩展性 – 虽然 DIRL 能很好地处理少量工具,但随着模块数量增至数十,搜索空间会快速膨胀,需要更智能的课程或层次选择策略。
  • 对未见域的泛化 – 基准主要聚焦于室内家庭场景;扩展到室外或工业环境可能需要域特定的工具微调。
  • 作者提出的未来方向 包括:
    1. 层次化 DIRL,以管理更大的工具库。
    2. 根据任务难度自适应工具选择的课程学习。
    3. 与低层机器人控制器更紧密的集成,实现闭环操作。

作者

  • Siyi Chen
  • Mikaela Angelina Uy
  • Chan Hee Song
  • Faisal Ladhak
  • Adithyavairavan Murali
  • Qing Qu
  • Stan Birchfield
  • Valts Blukis
  • Jonathan Tremblay

论文信息

  • arXiv ID: 2512.04069v1
  • 分类: cs.CV, cs.RO
  • 发表时间: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »