[Paper] SpaceTools：工具增强的空间推理 via Double Interactive RL

发布: 2个月前 (2025年12月4日 GMT+8 02:50)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.04069v1

概览

本文提出了 SpaceTools，一个新框架，使大型视觉‑语言模型（VLM）能够通过学习调用和组合多个视觉“工具”（例如深度估计器、分割网络、姿态检测器）来进行精确几何推理。通过使用 双交互强化学习（DIRL） 对模型进行训练，作者在多个基准上实现了最先进的空间推理，并在真实的 7 自由度机器人上展示了可靠的操作能力。

关键贡献

DIRL 训练流水线 – 两阶段强化学习方案，首先使用专家工具‑专员示范教会 VLM，然后让其探索并完善多工具协同。
工具增强的空间推理 – 模型能够在运行时选择、调用并融合多个视觉工具的输出，而不是依赖固定流水线或手工提示。
SpaceTools 模型 – 在 RoboSpatial‑Home（比监督微调提升 12 %，比普通 RL 提升 16 %）、BLINK 和 BOP‑ASK 基准上取得了最高报告分数。
真实世界验证 – 该方法在 7‑DOF 机械臂上部署，展示了对需要米级精度的抓取‑放置和姿态调整任务的鲁棒性。
开源发布 – 代码、预训练检查点和交互式演示均公开提供。

方法论

工具套件 – 系统集成了现成的视觉模块（深度、语义分割、物体姿态估计）。每个工具可以通过自然语言指令查询，并返回结构化输出（例如深度图）。
教学阶段
- 工具专员：通过交互式 RL 训练的单工具代理，掌握特定推理子任务（如“找到最近的杯子”）。
- 前沿模型：能够调用任意工具的更大 VLM，但尚未具备协同技能。
- 将专员的示范与前沿模型的轨迹混合，构建课程，展示 该做什么 与 如何调用正确工具。
探索阶段 – 前沿模型继续使用 RL 训练，奖励基于任务成功（如正确的空间关系分类），并对不必要的工具调用施加惩罚，从而鼓励高效、目的明确的工具使用。
策略架构 – VLM 的语言编码器与轻量级控制器融合，控制器预测工具选择分布并生成所选工具的文本查询。工具的输出再反馈给语言模型，形成感知‑行动闭环。

结果与发现

基准	之前的 SOTA	SpaceTools (DIRL)	提升
RoboSpatial‑Home	68.4 %	80.5 %	+12 %
BLINK（空间 QA）	71.2 %	78.9 %	+7.7 %
BOP‑ASK（姿态 QA）	64.0 %	73.5 %	+9.5 %

工具使用效率：平均每个查询仅调用 1.8 个工具，而朴素的穷举方法需调用 3.4 个。
真实机器人测试：在需要亚厘米对齐的 7‑DOF 抓放任务中成功率为 94 %，显著优于仅使用单一深度估计器的基线 VLM（71 % 成功率）。
消融实验：去除教学阶段会导致性能下降约 8 %，验证了专家示范对多工具协同的重要性。

实际意义

具身 AI 与机器人 – 开发者可以将 SpaceTools 插入现有机器人堆栈，为代理提供米级空间感知，而无需手工构建感知流水线。
模块化 AI 服务 – DIRL 框架可复用于教会 VLM 编排任意 API（如 OCR、3‑D 重建），为更灵活的 AI 助手打开大门。
降低工程开销 – 系统学习最优的工具调用顺序，省去手动串联深度 → 分割 → 姿态模型的时间和计算预算。
提升混合现实 UI – 需要精确物体放置的应用（AR 家具布局、远程遥控）可利用模型在运行时请求恰当工具的能力。

局限性与未来工作

工具依赖 – 性能受底层视觉工具质量影响；噪声较大的深度或姿态估计器仍会导致结果下降。
工具集合的可扩展性 – 虽然 DIRL 能很好地处理少量工具，但随着模块数量增至数十，搜索空间会快速膨胀，需要更智能的课程或层次选择策略。
对未见域的泛化 – 基准主要聚焦于室内家庭场景；扩展到室外或工业环境可能需要域特定的工具微调。
作者提出的未来方向 包括：
1. 层次化 DIRL，以管理更大的工具库。
2. 根据任务难度自适应工具选择的课程学习。
3. 与低层机器人控制器更紧密的集成，实现闭环操作。

作者

Siyi Chen
Mikaela Angelina Uy
Chan Hee Song
Faisal Ladhak
Adithyavairavan Murali
Qing Qu
Stan Birchfield
Valts Blukis
Jonathan Tremblay

论文信息

arXiv ID: 2512.04069v1
分类: cs.CV, cs.RO
发表时间: 2025 年 12 月 3 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] EditThinker：为任意图像编辑器解锁迭代推理

Instruction-based image editing 已成为一个重要的研究领域，受益于 image generation foundation models，已经实现了高水平的美学效果……

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型

视觉语言模型（VLMs）展现出卓越的常识和语义推理能力。然而，它们缺乏对物理动态的扎实理解。