[Paper] 픽셀 없이 보기: 카메라 궤적에서의 인식

발행: (2025년 11월 27일 오전 03:57 GMT+9)
3 min read
원문: arXiv

Source: arXiv - 2511.21681v1

Overview

픽셀을 보지 않고도 카메라 궤적—공간을 가로지르는 경로—만으로 영상의 내용을 인식할 수 있을까? 이 논문은 겉보기에 불가능해 보이는 이 질문을 체계적으로 조사한 최초의 연구이다. 이를 위해 우리는 CamFormer라는 전용 인코더를 학습시키는 대조 학습 프레임워크를 제안한다. CamFormer는 카메라 포즈 궤적을 자연어와 정렬되는 공동 임베딩 공간으로 투사한다. 우리는 겉보기와는 달리 카메라 궤적이 영상 내용을 밝혀내는 데 놀라울 정도로 풍부한 신호임을 발견했다. 즉, “어떻게 움직이는가”가 “무엇을 하고 있는가”(주관적) 혹은 “무엇을 관찰하고 있는가”(객관적)를 실제로 드러낼 수 있다.

우리는 학습된 CamFormer 임베딩의 다재다능함을 교차‑모달 정렬, 분류, 시간 분석 등 다양한 다운스트림 작업에 적용해 시연한다. 특히 우리의 표현은 고성능 다중 센서 기반 추정기와 일반 RGB‑전용 추정기 모두를 포함한 다양한 카메라 포즈 추정 방법에 대해 강인성을 보인다. 우리의 연구 결과는 카메라 궤적이 가볍고, 견고하며, 다목적적인 모달리티로서 영상 내용을 인식하는 데 유용함을 입증한다.

Authors

  • Zihui Xue
  • Kristen Grauman
  • Dima Damen
  • Andrew Zisserman
  • Tengda Han

Categories

cs.CV

Paper Information

  • arXiv ID: 2511.21681v1
  • Categories: cs.CV
  • Published: November 27, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…