[Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론

발행: (2025년 11월 27일 오전 03:59 GMT+9)
3 min read
원문: arXiv

Source: arXiv - 2511.21688v1

Overview

Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 이 격차가 2D 이미지로부터 3D 공간을 재구성할 수 있는 시각적 기하학 학습 과정이 없기 때문이라고 판단합니다. 우리는 G$^2$VLM이라는 기하학 기반 비전‑언어 모델을 제시하여 공간 지능의 두 가지 근본적인 측면, 즉 공간 3D 재구성과 공간 이해를 연결합니다.

  • G$^2$VLM은 학습된 3D 시각 기하학 특징을 자연스럽게 활용하여 3D 속성을 직접 예측합니다.
  • 인‑컨텍스트 학습 및 교차 추론을 통해 공간 추론 작업을 향상시킵니다.
  • 통합 설계는 매우 확장성이 높으며, 풍부한 다중 뷰 이미지 및 비디오 데이터로 학습하면서 일반적으로 수집하기 어려운 주석에서 파생되는 3D 시각 사전 지식을 활용합니다.

실험 결과 G$^2$VLM은 두 작업 모두에서 뛰어난 성능을 보이며, 최첨단 피드‑포워드 3D 재구성 모델에 필적하는 결과를 달성하고, 공간 이해 및 추론 벤치마크 전반에 걸쳐 더 나은 혹은 경쟁력 있는 성능을 제공합니다. 의미론적으로 강력한 VLM과 저수준 3D 비전 작업을 통합함으로써, G$^2$VLM이 커뮤니티를 위한 강력한 베이스라인이 되고 3D 씬 편집과 같은 미래 응용을 열어줄 수 있기를 기대합니다.

Authors

  • Wenbo Hu
  • Jingli Lin
  • Yilin Long
  • Yunlong Ran
  • Lihan Jiang
  • Yifan Wang
  • Chenming Zhu
  • Runsen Xu
  • Tai Wang
  • Jiangmiao Pang

Categories

  • cs.CV
  • cs.AI
  • cs.CL

Paper Information

  • arXiv ID: 2511.21688v1
  • Published: November 27, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »