[논문] RayDer: 실세계 비디오에서 확장 가능한 자체 지도식 새로운 시점 합성

발행: (2026년 5월 30일 AM 01:50 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2605.31535v1

Overview

RayDer는 컴퓨터 비전 분야에서 가장 어려운 문제 중 하나인, 별도 주석 없이 일반 영상에서 현실적인 새로운 시점을 생성하는 문제에 도전합니다. 카메라 자세 추정, 3‑D 재구성, 이미지 렌더링을 하나의 트랜스포머 모델에 통합함으로써, 과거에 깨지기 쉬웠던 다중 네트워크 파이프라인을 깔끔하고 확장 가능하며 자체 지도 학습(self‑supervised) 시스템으로 전환하고, 방대한 비제한 비디오 컬렉션에 대해 학습할 수 있게 합니다.

Key Contributions

  • Unified Transformer Backbone – 카메라 파라미터, 장면 기하학, 렌더링을 동시에 학습하는 단일 피드‑포워드 구조로, 별도의 모듈이 필요 없게 합니다.
  • Dynamic‑State Nuisance Variable – 움직이는 객체와 조명 변화를 흡수하는 최소한의 시간‑가변 잠재 변수를 도입해, 모델이 정적 장면 합성에 집중하면서도 동적 비디오 데이터의 이점을 활용할 수 있게 합니다.
  • Self‑Supervised Scaling Law – 모델 크기, 연산량, 데이터 양 사이에 깨끗한 멱법칙 관계가 존재함을 보여주어, 자원이 늘어날수록 성능 향상이 예측 가능함을 증명합니다.
  • Zero‑Shot Open‑Set Performance – 실제 깊이 혹은 자세에 대한 정답을 전혀 보지 않았음에도 불구하고, 다양한 벤치마크에서 감독 학습 최첨단 방법과 동등하거나 더 나은 결과를 달성합니다.
  • Practical Training on Real‑World Video – 기존 NVS 시스템이 흔히 실패하는 야생의 비정제 비디오 스트림(예: YouTube 클립)에서도 안정적인 학습이 가능함을 보여줍니다.

Methodology

  1. Input Pipeline – 전처리 없이(광류(optical flow)나 깊이 맵 없이) 원시 비디오 프레임을 모델에 직접 입력합니다.
  2. Transformer Core – 표준 Vision Transformer가 각 프레임을 처리하지만, 출력은 두 개의 스트림으로 분리됩니다:
    • Static Scene Representation – 시간에 구애받지 않는 기하학 및 외관을 인코딩하는 잠재 표현.
    • Dynamic State – 움직이는 사람, 조명 깜박임 등 변화를 모두 포착하는 가벼운 프레임별 잠재 변수.
  3. Camera Estimation & Rendering – 동일한 트랜스포머가 각 프레임에 대한 카메라 외부 파라미터를 예측하고, 원하는 자세를 이용해 정적 장면 잠재 변수에 질의함으로써 직접 새로운 시점을 렌더링합니다.
  4. Self‑Supervision – 인접 시점으로부터 보류된 프레임을 재구성하도록 학습시키며, 광도 손실과 동적 상태를 최소화하도록 강제하는 일관성 항을 사용합니다(즉, 정적 장면으로 설명할 수 없는 부분만 동적 상태가 담당).
  5. Scaling Regime – 모델 깊이/폭과 데이터 규모를 수십 배에 걸쳐 실험하여, 성능이 예측 가능한 멱법칙 곡선을 따른다는 것을 확인합니다.

Results & Findings

  • Power‑Law Scaling – 데이터셋 크기나 연산량을 두 배로 늘릴 때마다 일정 비율의 성능 향상이 일관되게 나타나며, 이는 언어 모델에서 관찰되는 추세와 유사합니다.
  • Benchmark Dominance – RealEstate10K, LLFF 등 표준 NVS 벤치마크에서 RayDer는 깊이·자세 정답을 이용한 감독 학습 기반을 능가하거나 동등한 성능을 보입니다.
  • Robustness to Dynamics – 차량·군중 등 강한 움직임이 있는 영상으로 학습하더라도, 동적‑상태 잡음 변수 덕분에 정적 장면의 새로운 시점을 깔끔하게 생성합니다.
  • Zero‑Shot Generalization – 파인튜닝 없이도 완전히 보지 못한 장면에 대해 새로운 시점을 합성할 수 있어, 강력한 오픈‑셋 능력을 입증합니다.

Practical Implications

  • Content Creation – AR/VR 경험을 제작하는 개발자는 일반 영상만으로 고품질 3‑D 플라이트‑스루를 생성할 수 있어, 비용이 많이 드는 캡처 장비를 크게 절감할 수 있습니다.
  • Robotics & Navigation – 자율 시스템이 대시캠 영상으로부터 실시간으로 장면 기하학을 추론하여, 별도의 SLAM 파이프라인 없이 지도 구축을 향상시킬 수 있습니다.
  • Game Asset Generation – 스튜디오는 촬영 현장 뒤편 영상을 정적 환경 자산으로 전환해 레벨 디자인 속도를 가속화할 수 있습니다.
  • Scalable Cloud Services – RayDer가 예측 가능한 방식으로 확장되므로, 클라우드 제공자는 데이터·연산이 추가될수록 자동으로 개선되는 “video‑to‑3D” API를 제공할 수 있습니다.
  • Reduced Annotation Costs – 자세나 깊이에 대한 수동 라벨링이 필요 없으므로, 수십억 개의 공개 영상에 대해 학습하는 것이 현실화됩니다.

Limitations & Future Work

  • Static‑Scene Focus – 최종 렌더링에서 동적 객체는 의도적으로 무시됩니다; 4‑D(동적) 장면 재구성이 필요한 응용에는 추가적인 확장이 필요합니다.
  • Memory Footprint – 가장 큰 규모에서는 통합 트랜스포머가 메모리를 많이 차지하므로, 엣지 디바이스에 배포하려면 신중한 엔지니어링이 요구됩니다.
  • Lighting & Material Fidelity – 기하학은 잘 포착되지만, 미세한 재질 특성이나 복잡한 조명(예: 반사광)은 아직 근사 수준에 머물러 있습니다.
  • Future Directions – 저자들은 명시적인 조명 모델 통합, 정적‑동적 하이브리드 장면 표현 탐색, 모바일 하드웨어에서 실시간 추론을 위한 아키텍처 최적화를 제안합니다.

Authors

  • Ulrich Prestel
  • Stefan Andreas Baumann
  • Nick Stracke
  • Björn Ommer

Paper Information

  • arXiv ID: 2605.31535v1
  • Categories: cs.CV, cs.AI, cs.LG
  • Published: May 29, 2026
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »