[Paper] StereoSpace: Depth-Free 스테레오 기하학 합성 via End-to-End Diffusion in a Canonical Space

발행: (2025년 12월 12일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10959v1

Overview

StereoSpace는 깊이‑프리 방식으로 단일 이미지를 완전한 스테레오 쌍으로 변환합니다. 깊이 맵을 추정하거나 픽셀을 워핑하는 대신, 원하는 시점에만 조건화된 확산 모델을 사용합니다. 정규화된 직교 공간에서 반대 눈의 시점을 “상상”하도록 학습함으로써 선명한 시차를 생성하고 투명 객체나 반사 표면과 같은 어려운 경우도 처리할 수 있습니다.

Key Contributions

  • 시점‑조건화 확산: 목표 카메라 자세를 유일한 기하학적 단서로 사용하는 확산 생성기를 도입하여 명시적인 깊이 추정이나 워핑 파이프라인이 필요 없게 합니다.
  • 정규화된 직교 공간: 좌·우 대응 관계를 암묵적으로 학습할 수 있는 공유된 직교 좌표계를 정의하여 학습 문제를 단순화하고 일관성을 향상시킵니다.
  • 엔드‑투‑엔드 평가 프로토콜: 추론 시 어떠한 실제 혹은 프록시 기하학도 제공되지 않도록 하는 공정한 테스트 설정을 제공하며, 지각적 편안함(iSQoE)과 기하학적 일관성(MEt3R)에 초점을 맞춥니다.
  • 최신 성능: 합성 및 실제 데이터셋 모두에서 기존 워프‑인페인팅, 라텐트‑워핑, 워프‑컨디셔닝 베이스라인을 능가하며, 특히 레이어드 혹은 비‑람버트 장면에서 뛰어납니다.
  • 확장 가능한 아키텍처: 한 번 학습된 단일 확산 모델을 사용해 장면별 튜닝 없이 모든 단일 이미지‑투‑스테레오 작업에 적용할 수 있습니다.

Methodology

Canonical Rectified Space

모든 이미지는 먼저 에피폴라 라인이 수평이 되도록 정규화된 스테레오 프레임으로 매핑됩니다. 이를 통해 모델이 복잡한 에피폴라 기하학을 학습할 필요가 없어집니다.

Diffusion Generator with Viewpoint Conditioning

표준 디노이징 확산 확률 모델(DDPM)에 포즈 임베딩을 추가하여 원하는 가상 카메라 오프셋(예: “오른쪽으로 6 cm 이동”)을 인코딩합니다. 학습 시 모델은 좌·우 이미지 쌍을 보고, 좌측 이미지의 노이즈 버전과 포즈 토큰을 이용해 오른쪽 시점을 복원하도록 학습합니다.

End‑to‑End Synthesis

명시적인 깊이 맵, 워핑, 인페인팅 단계가 전혀 없습니다. 확산 과정이 직접적으로 가려진 영역을 채우면서 텍스처 연속성을 유지합니다. 손실은 재구성 항(L2 픽셀 손실)과 지각적 항(VGG 기반)을 결합해 현실적인 텍스처를 장려합니다.

Evaluation Protocol

테스트 시 모델은 단일 모노큘러 입력과 목표 시점만을 받으며, 깊이 정보나 프록시 기하학은 제공되지 않습니다.

  • Metrics:
    • iSQoE (image‑based Stereo Quality of Experience) – 지각적 편안함과 시각적 아티팩트를 측정합니다.
    • MEt3R (Mean Epipolar Transfer error) – 생성된 쌍에서 대응 점들의 기하학적 정렬 정도를 정량화합니다.

Results & Findings

방법 카테고리iSQoE (높을수록 좋음)MEt3R (낮을수록 좋음)
Warp & Inpaint0.714.9 px
Latent‑Warping0.783.8 px
Warped‑Conditioning0.823.2 px
StereoSpace (proposed)0.892.1 px
  • Sharp Parallax: 큰 베이스라인 이동에서도 선명한 시차를 보이는 스테레오 쌍을 생성합니다.
  • 복잡한 재질에 대한 강인성: 투명 레이어, 반사 하이라이트, 반투명 잎사귀 등을 깊이 기반 워프에서 흔히 발생하는 유령 현상 없이 처리합니다.
  • Generalization: 합성·실제 데이터가 혼합된 동일 모델이 미보정 실내·실외 장면에서도 별도 미세조정 없이 작동합니다.

Practical Implications

  • VR/AR 콘텐츠 제작: 개발자는 단일 사진이나 렌더링 프레임을 즉시 스테레오 자산으로 변환할 수 있어 듀얼 카메라 장비나 고가 깊이 센서가 필요하지 않습니다.
  • 3D 미디어 파이프라인: 레거시 2D 영상에 대해 자동으로 좌·우 눈 시점을 생성해 3D 영화나 360° 비디오 포맷으로 빠르게 전환할 수 있습니다.
  • 로봇 및 자율 시스템: 현실적인 스테레오 입력이 필요한 시뮬레이터는 전체 3D 모델을 유지하지 않고도 StereoSpace를 활용해 깊이‑일관적인 뷰를 합성할 수 있습니다.
  • 엣지 배포: 무거운 깊이 추정 모듈이 사라져 단일 확산 모델(≈ 1 GB)만으로 현대 GPU는 물론 모바일 NPU에서도 온‑디바이스 스테레오 생성이 가능합니다.

Limitations & Future Work

  • Computational Cost: 확산 추론은 여전히 다수의 디노이징 단계(≈ 50–100)가 필요해 실시간 적용에 병목이 될 수 있습니다.
  • Baseline Range: 매우 넓은 베이스라인(> 10 cm)에서는 훈련 시 보지 못한 큰 시차 때문에 품질이 저하됩니다.
  • Training Data Bias: 모델은 훈련 데이터에 존재하는 편향(예: 실내 장면 과다 대표)을 그대로 물려받습니다.
  • Future Directions: 저속 샘플링 기법(예: DDIM, classifier‑free guidance) 탐색, 동적 장면(비디오 확산)으로 조건을 확장, 극단적인 베이스라인 처리를 위한 학습된 프라이어 통합 등을 제안합니다.

Authors

  • Tjark Behrens
  • Anton Obukhov
  • Bingxin Ke
  • Fabio Tosi
  • Matteo Poggi
  • Konrad Schindler

Paper Information

  • arXiv ID: 2512.10959v1
  • Categories: cs.CV
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »