OneCanvas: 광역 재투영으로 3D 장면 이해

발행: (2026년 6월 18일 AM 01:29 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.19253v1

Overview

기존 3D 장면을 이해하는 Vision-Language 모델(VLM) 접근 방식은 복잡하고 모델별 기하학 인코더 또는 공간적 추론을 위한 대규모 훈련 비용에 의존합니다. 대신 OneCanvas는 모든 뷰의 패치 특성을 단일 등축 평면 캔버스에 집계합니다. 구체적으로, 각 패치는 깊이와 카메라 포즈를 이용해 3D 세계 좌표로 비프로젝션됩니다. 이후 이 점의 원점에서의 경도와 위도로 캔버스에 연속적인 형태로 배치되며, 겹치는 뷰 간 라스터화 또는 집계가 이루어지지 않습니다. 패치의 메트릭 좌표를 나타내는 3D 위치 임베딩을 특성에 추가하여, 세계 포지션을 각도 캔버스 좌표로 압축할 때 손실된 깊이를 복원합니다. 모든 프레임의 패치는 백본의 융합이나 중대한 아키텍처 수정 없이 동일한 공간 좌표 시스템을 공유합니다. 사전 훈련된 VLM은 이 표현을 일반적인 이미지와 같이 소비합니다. 캔버스가 관심 있는 포즈에 맞춰 중심이 잡힐 수 있으므로, 같은 표현으로 특정 시점에서의 위치 기반 추론도 직접 지원됩니다. 이는 로봇 및 Embodied AI에서 흔히 요구되는 요구 사항입니다. 이러한 표현 덕분에 공간 pretraining 커리큘럼을 도입할 수 있습니다: 실제 이미지에서 객체 패치 특성을 선택한 3D 세계 좌표에 빈 캔버스 위에 배치함으로써, 온디emand로 다양한 공간 추론 과제를 포괄하는 감독 신호를 생성합니다. 답변 분포를 조절하여 공간 추론 단축을 감소시킵니다. OneCanvas는 SQA3D와 VSI‑Bench에서 최신 정확도를 달성하고, SPBench의 외계 데이터에도 일반화하며, 가장 강력한 경쟁 방법보다 훈련 비용이 10배 적게 듭니다.

Key Contributions

이 논문은 다음과 같은 연구 영역을 다루고 있습니다:

  • cs.CV
  • cs.AI
  • cs.LG
  • cs.RO

Methodology

자세한 방법については 전체 논문을 참고하십시오.

Practical Implications

본 연구는 cs.CV 분야의 발전을 기여합니다.

Authors

  • Bartłomiej Baranowski
  • Dave Zhenyu Chen
  • Matthias Nießner

Paper Information

  • arXiv ID: 2606.19253v1
  • 분야: cs.CV, cs.AI, cs.LG, cs.RO
  • 발행일: 2026년 6월 17일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »