[Paper] OmniView: 3D 및 4D 뷰 합성을 위한 전지전능 Diffusion Model

발행: (2025년 12월 12일 오전 03:59 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.10940v1

Overview

OmniView는 단일 확산 모델로, 일관된 3‑D 장면과 4‑D 비디오를 생성하면서 개발자에게 카메라 움직임, 시간, 시각적 프롬프트에 대한 세밀한 제어를 제공합니다. 공간, 시간, 뷰 조건의 표현을 분리함으로써, 저자들은 하나의 네트워크가 정적·동적 입력으로부터의 새로운 뷰 합성, 궤적 외삽, 임의의 카메라 경로를 갖는 텍스트·이미지 기반 비디오 생성 등 다양한 작업을 별도의 전용 모델 없이 처리할 수 있음을 보여줍니다.

Key Contributions

  • 통합 4‑D 확산 프레임워크: 공간, 시간, 뷰 조건을 공동 학습하여 다수의 특화 모델이 필요 없게 함.
  • 모듈식 조건 표현: 장면 기하, 움직임, 카메라 자세에 대한 별도 임베딩을 제공해 임의 조합을 가능하게 함(예: 정적 이미지 + 동적 카메라, 비디오 + 새 뷰).
  • 다수 벤치마크에서 최첨단 성능을 달성, 전용 베이스라인 대비 최대 33 % (LLFF 다중 뷰 NVS), 60 % (Neural 3D Video 동적 NVS), 20 % (RE‑10K 정적 카메라 제어) 향상.
  • 텍스트 조건 비디오 생성 시 카메라 궤적 오류 크게 감소(≈ 4배), 사용자 지정 움직임에 대한 충실도 향상.
  • 코드, 사전 학습 가중치, 인터랙티브 데모를 오픈소스로 공개해 빠른 도입과 추가 연구를 장려.

Methodology

OmniView는 잠재 확산 아키텍처를 기반으로 하면서 세 가지 직교 조건 스트림을 도입합니다:

ConditioningWhat it encodesHow it’s fed to the model
Space3‑D 기하 또는 정적 장면 레이아웃(예: 깊이 맵, 포인트 클라우드)잠재 이미지 그리드와 정렬되는 공간 토큰 시퀀스로 임베딩.
Time시간적 동역학(프레임 인덱스, 움직임 벡터)비디오 확산 모델과 유사한 사인파 시간 임베딩을 통해 주입.
View카메라 자세(위치, 방향, 초점 거리)6‑DoF 벡터로 표현되어 학습된 뷰 임베딩 공간에 투사.

학습 시 모델은 이질적인 4‑D 데이터셋에서 무작위로 샘플링된 (space, time, view) 삼중항을 받으며, 여기에는 정적 다중 뷰 캡처, 동적 장면, 텍스트‑투‑비디오 클립이 혼합됩니다. 확산 손실은 기존과 동일하게 계산되지만, 조건 토큰은 잠재 이미지 토큰과 연결(concatenate)되어 UNet이 추론 시 조건의 어떤 부분 집합에도 주의를 기울일 수 있게 합니다.

세 조건 유형이 독립적이기 때문에 동일 네트워크를 다음과 같이 자유롭게 조합해 사용할 수 있습니다:

  • Static → New View: space + 목표 view 제공, time은 비워 둠.
  • Dynamic → New View: space + time + 목표 view 제공.
  • Text → Video + Camera: 텍스트 프롬프트 + view 궤적 제공, 스타일 가이드를 위해 선택적으로 시드 프레임 추가.

저자들은 또한 궤적 일관성 정규화기를 도입했는데, 이는 예측된 카메라 자세 임베딩과 실제 궤적 사이의 편차를 벌점(penalize)하여 관찰된 궤적 오류 감소에 핵심적인 역할을 합니다.

Results & Findings

BenchmarkTaskOmniView vs. Best Specialized ModelMetric Improvement
LLFF (multiview NVS)정적 다중 뷰 입력으로부터 새로운 뷰 합성PSNR ↑ 33 %더 높은 충실도의 복원, 선명한 가장자리
Neural 3D Video동적 장면 NVS(움직이는 객체)PSNR ↑ 60 %움직임 흐림 및 가림 현상 처리 개선
RE‑10K정적 카메라 제어(단일 이미지 → 비디오)PSNR ↑ 20 %더 부드러운 시간적 일관성
Text‑to‑Video (camera‑controlled)사용자 지정 궤적 따르기궤적 오류 ↓ 4×비디오가 의도한 경로를 훨씬 정확히 따라감

정성적으로 보면, OmniView는 카메라 움직임이 자연스러워 보이는 비디오를 생성합니다. 이는 단일 이미지나 짧은 클립으로부터 장면을 생성했을 때도 마찬가지입니다. 또한 모델은 제로샷 일반화를 보여주는데, 깊이 추정치와 새로운 자세만 제공하면 훈련 중 보지 못한 장면에 대해서도 새로운 뷰를 합성할 수 있습니다.

Practical Implications

  • AR/VR 콘텐츠의 빠른 프로토타이핑 – 개발자는 몇 장의 레퍼런스 이미지나 짧은 비디오만 제공하면 맞춤형 카메라 경로를 가진 몰입형 360° 경험을 즉시 생성할 수 있습니다.
  • 자동 비디오 편집 – 기존 영상을 재구성하거나 부드러운 돌리‑인/아웃 효과를 만들고, 안정화를 위해 누락된 프레임을 생성하는 파이프라인에 OmniView를 통합.
  • 게임 에셋 생성 – 컨셉 아트에서 일관된 스프라이트 시트나 컷신 비디오를 자동으로 만들어 수작업 애니메이션 작업을 감소.
  • 콘텐츠 모더레이션 및 합성 데이터 – 다양한 카메라 제어가 가능한 합성 데이터셋을 손쉽게 생성해 자율주행 등 인식 모델 학습에 활용, 다중 장면 변형을 일일이 제작할 필요 없음.
  • 크리에이티브 툴 – Runway, Adobe와 같은 텍스트‑투‑비디오 편집기에 연결해 아티스트가 카메라 안무를 정밀하게 제어하면서도 확산 기반 시각 품질을 유지하도록 지원.

모델이 단일 목적이며 표준 GPU(저자들은 RTX 3090에서 512×512 비디오 생성 시 약 2 fps)에서 실행 가능하므로, 다수의 특화 모델을 유지·관리하는 것보다 기존 워크플로에 통합하기 훨씬 수월합니다.

Limitations & Future Work

  • 학습 데이터 편향 – 모델은 혼합 4‑D 데이터셋의 분포를 그대로 물려받아, 특수 카메라 리그나 극단적인 조명 조건에서는 여전히 아티팩트가 발생할 수 있음.
  • 해상도 한계 – 현재 실험은 512×512까지이며, 4K 비디오로 확장하려면 메모리 효율적인 확산 기법이나 단계적 업샘플링이 필요.
  • 실시간 인터랙티비티 – 오프라인 생성에는 빠르지만, 실시간 제어(예: 라이브 AR)는 아직 구현되지 않음.
  • 명시적 기하 – OmniView는 깊이를 보조 조건으로만 사용; 향후 NeRF‑스타일의 학습된 3‑D 표현을 통합해 기하 일관성을 강화할 수 있음.
  • 다양한 모달리티 조건 – 오디오, 햅틱, 의미 지도 등으로 조건 프레임워크를 확장하면 보다 풍부한 멀티모달 합성이 가능해짐.

저자들은 더 크고 다양화된 학습 코퍼스, 효율적인 확산 샘플러, 그리고 신경 렌더링 파이프라인과의 긴밀한 결합을 탐구해 일반적인 4‑D 생성의 한계를 넓히고자 합니다.

Authors

  • Xiang Fan
  • Sharath Girish
  • Vivek Ramanujan
  • Chaoyang Wang
  • Ashkan Mirzaei
  • Petr Sushko
  • Aliaksandr Siarohin
  • Sergey Tulyakov
  • Ranjay Krishna

Paper Information

  • arXiv ID: 2512.10940v1
  • Categories: cs.CV, cs.AI
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.