[Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론
Source: arXiv - 2511.21688v1
Overview
Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 이 격차가 2D 이미지로부터 3D 공간을 재구성할 수 있는 시각적 기하학 학습 과정이 없기 때문이라고 판단합니다. 우리는 G$^2$VLM이라는 기하학 기반 비전‑언어 모델을 제시하여 공간 지능의 두 가지 근본적인 측면, 즉 공간 3D 재구성과 공간 이해를 연결합니다.
- G$^2$VLM은 학습된 3D 시각 기하학 특징을 자연스럽게 활용하여 3D 속성을 직접 예측합니다.
- 인‑컨텍스트 학습 및 교차 추론을 통해 공간 추론 작업을 향상시킵니다.
- 통합 설계는 매우 확장성이 높으며, 풍부한 다중 뷰 이미지 및 비디오 데이터로 학습하면서 일반적으로 수집하기 어려운 주석에서 파생되는 3D 시각 사전 지식을 활용합니다.
실험 결과 G$^2$VLM은 두 작업 모두에서 뛰어난 성능을 보이며, 최첨단 피드‑포워드 3D 재구성 모델에 필적하는 결과를 달성하고, 공간 이해 및 추론 벤치마크 전반에 걸쳐 더 나은 혹은 경쟁력 있는 성능을 제공합니다. 의미론적으로 강력한 VLM과 저수준 3D 비전 작업을 통합함으로써, G$^2$VLM이 커뮤니티를 위한 강력한 베이스라인이 되고 3D 씬 편집과 같은 미래 응용을 열어줄 수 있기를 기대합니다.
Authors
- Wenbo Hu
- Jingli Lin
- Yilin Long
- Yunlong Ran
- Lihan Jiang
- Yifan Wang
- Chenming Zhu
- Runsen Xu
- Tai Wang
- Jiangmiao Pang
Categories
- cs.CV
- cs.AI
- cs.CL
Paper Information
- arXiv ID: 2511.21688v1
- Published: November 27, 2025
- PDF: Download PDF