[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理

发布: 2个月前 (2025年11月27日 GMT+8 02:59)

2 分钟阅读

原文: arXiv

Source: arXiv - 2511.21688v1

概览

视觉语言模型（VLM）在空间智能方面仍然缺乏鲁棒性，在空间理解和推理任务上表现不佳。我们将这一差距归因于缺乏能够从二维图像重建三维空间的视觉几何学习过程。我们提出 G$^2$VLM，一种基于几何的视觉语言模型，桥接空间智能的两个基本方面：三维空间重建和空间理解。

G$^2$VLM 原生利用学习到的三维视觉几何特征直接预测三维属性。
它通过上下文学习和交叉推理提升空间推理任务的表现。
统一的设计高度可扩展：在大量多视角图像和视频数据上进行训练，同时受益于通常难以获取的三维视觉先验。

实验结果表明，G$^2$VLM 在两类任务上均表现出色，达到了与最先进的前馈式三维重建模型相当的效果，并在空间理解和推理基准上提供了更好或竞争性的性能。通过将语义强大的 VLM 与低层次的三维视觉任务统一，我们希望 G$^2$VLM 能成为社区的强基线，并开启诸如三维场景编辑等未来应用。

作者

Wenbo Hu
Jingli Lin
Yilin Long
Yunlong Ran
Lihan Jiang
Yifan Wang
Chenming Zhu
Runsen Xu
Tai Wang
Jiangmiao Pang

分类

cs.CV
cs.AI
cs.CL

论文信息

arXiv ID: 2511.21688v1
出版时间: 2025年11月27日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

大规模视觉语言模型（LVLMs）在需要视觉信息的任务中展现出先进的能力，包括目标检测。这些能力……

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

伊朗的中小企业（SMEs）日益利用Telegram进行销售，实时互动对转化至关重要。然而，dev...