[Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론

발행: 2개월 전 (2025년 11월 27일 오전 03:59 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2511.21688v1

Overview

Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 이 격차가 2D 이미지로부터 3D 공간을 재구성할 수 있는 시각적 기하학 학습 과정이 없기 때문이라고 판단합니다. 우리는 G$^2$VLM이라는 기하학 기반 비전‑언어 모델을 제시하여 공간 지능의 두 가지 근본적인 측면, 즉 공간 3D 재구성과 공간 이해를 연결합니다.

G$^2$VLM은 학습된 3D 시각 기하학 특징을 자연스럽게 활용하여 3D 속성을 직접 예측합니다.
인‑컨텍스트 학습 및 교차 추론을 통해 공간 추론 작업을 향상시킵니다.
통합 설계는 매우 확장성이 높으며, 풍부한 다중 뷰 이미지 및 비디오 데이터로 학습하면서 일반적으로 수집하기 어려운 주석에서 파생되는 3D 시각 사전 지식을 활용합니다.

실험 결과 G$^2$VLM은 두 작업 모두에서 뛰어난 성능을 보이며, 최첨단 피드‑포워드 3D 재구성 모델에 필적하는 결과를 달성하고, 공간 이해 및 추론 벤치마크 전반에 걸쳐 더 나은 혹은 경쟁력 있는 성능을 제공합니다. 의미론적으로 강력한 VLM과 저수준 3D 비전 작업을 통합함으로써, G$^2$VLM이 커뮤니티를 위한 강력한 베이스라인이 되고 3D 씬 편집과 같은 미래 응용을 열어줄 수 있기를 기대합니다.

Authors

Wenbo Hu
Jingli Lin
Yilin Long
Yunlong Ran
Lihan Jiang
Yifan Wang
Chenming Zhu
Runsen Xu
Tai Wang
Jiangmiao Pang

Paper Information

arXiv ID: 2511.21688v1
Published: November 27, 2025
PDF: Download PDF

[Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론

Overview

Authors

Categories

Paper Information

관련 글

[Paper] 자동 안전 운전 지시를 향한: 대규모 Vision Language Model 접근

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출

[Paper] MegaChat: 고품질 영업 챗봇 평가를 위한 합성 페르시아어 Q&A 데이터셋