[论文] G$^2$VLM: 基于几何的视觉语言模型,具备统一的 3D 重建与空间推理

发布: (2025年11月27日 GMT+8 02:59)
2 min read
原文: arXiv

Source: arXiv - 2511.21688v1

概览

视觉语言模型(VLM)在空间智能方面仍然缺乏鲁棒性,在空间理解和推理任务上表现不佳。我们将这一差距归因于缺乏能够从二维图像重建三维空间的视觉几何学习过程。我们提出 G$^2$VLM,一种基于几何的视觉语言模型,桥接空间智能的两个基本方面:三维空间重建和空间理解。

  • G$^2$VLM 原生利用学习到的三维视觉几何特征直接预测三维属性。
  • 它通过上下文学习和交叉推理提升空间推理任务的表现。
  • 统一的设计高度可扩展:在大量多视角图像和视频数据上进行训练,同时受益于通常难以获取的三维视觉先验。

实验结果表明,G$^2$VLM 在两类任务上均表现出色,达到了与最先进的前馈式三维重建模型相当的效果,并在空间理解和推理基准上提供了更好或竞争性的性能。通过将语义强大的 VLM 与低层次的三维视觉任务统一,我们希望 G$^2$VLM 能成为社区的强基线,并开启诸如三维场景编辑等未来应用。

作者

  • Wenbo Hu
  • Jingli Lin
  • Yilin Long
  • Yunlong Ran
  • Lihan Jiang
  • Yifan Wang
  • Chenming Zhu
  • Runsen Xu
  • Tai Wang
  • Jiangmiao Pang

分类

  • cs.CV
  • cs.AI
  • cs.CL

论文信息

  • arXiv ID: 2511.21688v1
  • 出版时间: 2025年11月27日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »