[Paper] SpatialBench:对多模态大型语言模型进行空间认知基准测试

发布: (2025年11月26日 GMT+8 23:04)
6 min read
原文: arXiv

Source: arXiv - 2511.21471v1

Overview

本文介绍了 SpatialBench,这是首个大规模基准,用于评估多模态大语言模型(MLLMs)对空间的理解和推理能力。作者将空间认知拆解为五个层级的层次结构——从原始感知到战略规划——从而揭示当前模型的优势与不足,并为构建真正具备空间感知的 AI 系统提供路线图。

Key Contributions

  • 层次化空间认知框架:定义了五个递进层级(观察 → 落地 → 符号推理 → 因果推断 → 规划),完整覆盖空间智能的全谱。
  • SpatialBench 基准:15 项精心策划的多模态任务(图文、视频‑文、3‑D 场景),与层次结构对齐,提供对真实世界空间情境的细粒度覆盖。
  • 能力导向度量:统一的评分体系,在保持层次结构的前提下聚合不同任务的表现。
  • 全面评估:对 dozens of state‑of‑the‑art MLLMs 进行基准测试,揭示系统性强项(感知落地)和弱点(符号推理、规划)。
  • 人类 vs. 模型分析:表明人类能够进行选择性、目标导向的抽象,而模型往往过度关注表面细节,凸显意图性空间推理的差距。

Methodology

  1. 分类法设计 – 作者参考认知科学文献和 AI 研究,定义了五个认知层级,以体现抽象程度和规划深度的递增。
  2. 任务构建 – 对每个层级创建多个任务(如“识别物体位置”“描述空间关系”“预测移动物体的结果”“规划导航路线”),数据来源包括已有的视觉‑语言数据集、合成 3‑D 环境以及自定义视频片段。
  3. 统一评估度量 – 将各任务得分归一化后,根据其认知层级加权,得到一个兼顾层次结构的单一 “空间能力” 分数。
  4. 模型测试 – 对超过 30 个公开可用的 MLLMs(如 GPT‑4V、LLaVA、Gemini‑Pro Vision)在基准上使用 zero‑shot 提示进行测试;结果按层级汇总。
  5. 人类基线 – 通过众包研究收集人类在子集任务上的回答,实现与模型行为的直接对比。

Results & Findings

  • 感知落地(Level 1‑2):大多数 MLLMs 达到 >80 % 的准确率,表明在图像中定位和描述物体方面能力强。
  • 符号推理(Level 3):得分下降至约 45 %,显示在操作空间符号(如 “左侧”“内部”)方面存在困难。
  • 因果推断(Level 4):表现徘徊在 30 % 左右,反映对动作如何改变空间配置的理解有限。
  • 规划(Level 5):最难层级,最佳模型得分 <20 %,意味着它们无法可靠生成多步导航或操作计划。
  • 人类 vs. 模型:人类能够忽略无关的视觉杂乱,聚焦任务相关的空间线索,而模型往往 “过度关注” 细节,导致答案嘈杂或自相矛盾。

Practical Implications

  • 机器人与自主代理:SpatialBench 表明当前 MLLMs 在高层规划任务(如机器人导航或操作)上尚未准备好,需要额外的推理模块。
  • AR/VR 内容创作:开发者可以依赖 MLLMs 进行快速的物体检测和描述,但不应期望它们生成连贯的空间叙事或布局建议。
  • 地理空间分析:该基准可作为诊断工具,帮助选择适合卫星图像标注与复杂地形推理等任务的模型。
  • 产品路线图:构建多模态助理的公司可利用层次化得分来确定研究重点——例如加入符号推理层或集成外部物理引擎,以提升因果推断能力。

Limitations & Future Work

  • 数据集偏差:许多任务依赖合成或精选场景,真实世界的杂乱与光照变化可能影响泛化能力。
  • 提示依赖性:Zero‑shot 表现对提示措辞高度敏感,本文未系统探讨提示工程。
  • 度量粒度:虽然能力导向度量聚合了得分,但可能掩盖同一层级内部的细微失效模式。
  • 未来方向:作者建议将 SpatialBench 扩展至 3‑D 视频,加入交互式评估(如具身代理),并探索将 LLM 推理与专用空间模块相结合的混合架构。

Authors

  • Peiran Xu
  • Sudong Wang
  • Yao Zhu
  • Jianing Li
  • Yunjian Zhang

Paper Information

  • arXiv ID: 2511.21471v1
  • Categories: cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »