[Paper] Video4Spatial: 시공간 인텔리전스를 향한 컨텍스트 기반 비디오 생성
발행: (2025년 12월 3일 오전 03:59 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.03040v1
Overview
이 논문은 Video4Spatial이라는 새로운 프레임워크를 소개한다. 이 프레임워크는 비디오 확산 모델을 단순한 프레임 생성 수준을 넘어 진정한 시공간 지능으로 확장한다. 깊이 맵, 포즈 벡터, 기타 보조 신호 없이 순수 비디오 컨텍스트만을 조건으로 사용함으로써, 시스템은 공간 지시를 이해하고 수행할 수 있어 카메라 포즈 네비게이션 및 객체 그라운딩과 같은 작업을 비디오 스트림에서 직접 수행한다.
Key Contributions
- Context‑only conditioning: 비디오 확산 모델이 순수 비디오 프레임만을 컨텍스트로 사용해 3D 기하와 공간 관계를 추론할 수 있음을 입증한다.
- 두 가지 벤치마크 작업:
- Scene navigation – 모델이 자연어 카메라 포즈 명령을 따르면서 장면 일관성을 유지한다.
- Object grounding – 의미론적 지시를 기반으로 목표 객체를 위치 파악하고 그쪽으로 이동한다.
- End‑to‑end spatial reasoning: 별도의 깊이 또는 포즈 추정 모듈이 없으며, 확산 모델이 계획, 그라운딩, 비디오 생성을 공동으로 수행한다.
- Robust generalization: 더 긴 비디오 컨텍스트와 훈련 중 보지 못한 도메인 외 환경에서도 작동한다.
- Data curation pipeline: 공간 단서를 강조하는 비디오 중심 훈련 데이터를 가볍게 구성하는 방법을 제시해 비용이 많이 드는 3D 주석의 필요성을 감소시킨다.
Methodology
- Video Diffusion Backbone – 저자들은 최신 비디오 확산 모델(예: 비디오용 Latent Diffusion)을 기반으로, 이전 프레임들의 잠재 표현을 조건으로 미래 프레임을 예측한다.
- Scene‑Context Encoder – 트랜스포머 스타일 인코더가 과거 비디오 프레임의 슬라이딩 윈도우를 받아들여 시공간 컨텍스트 벡터를 추출한다. 명시적인 깊이·포즈는 추출되지 않으며, 인코더가 움직임 단서로부터 암시적 기하를 학습한다.
- Instruction Conditioning – “왼쪽으로 30° 회전” 혹은 “빨간 의자 쪽으로 이동”과 같은 자연어 명령을 토크나이즈하고, 교차‑어텐션을 통해 장면 컨텍스트와 결합한다.
- Guided Sampling – 확산 샘플링 중 spatial consistency loss가 추론된 3D 레이아웃에서 벗어나는 것을 벌점으로 부과해, 생성된 프레임이 장면 기하를 존중하도록 유도한다.
- Training Regime – 각 클립이 합성된 네비게이션 또는 그라운딩 명령과 짝을 이루는 비디오 데이터셋을 사용해 모델을 학습한다. 손실은 표준 확산 재구성 손실과 공간 일관성 항을 결합한다.
Results & Findings
- Navigation Accuracy – 보류된 테스트 세트에서 모델은 카메라 포즈 명령을 약 85%의 비율로 정확히 수행하며, 현실적인 원근감을 유지하고 장면 파괴 현상을 방지한다.
- Object Grounding Success – 그라운딩 작업에서는 생성된 비디오가 목표 위치에 카메라를 배치하는 비율이 78%에 달하며, 객체가 부분적으로 가려진 경우에도 성능을 유지한다.
- Long‑Context Stability – 컨텍스트 윈도우가 4초에서 12초로 늘어날 때 성능 저하가 점진적으로 일어나, 모델이 장기간 시퀀스에서도 공간 기억을 유지할 수 있음을 보여준다.
- Cross‑Domain Transfer – 완전히 다른 도메인(예: 실내 로봇 영상 vs. 합성 실내 장면)의 비디오에 대해 평가했을 때도 70% 이상의 성공률을 유지해 강력한 일반화를 입증한다.
Practical Implications
- Robotics & Autonomous Navigation – Video4Spatial은 고가 센서가 필요 없는 로봇을 위한 인식 전용 프론트엔드로 활용될 수 있어, 고수준 명령을 해석하고 실행 가능한 움직임 계획으로 변환한다.
- AR/VR Content Generation – 개발자는 자연어로 카메라 움직임이나 객체 초점 지시를 스크립트화하고, 시스템이 몰입형 경험을 위한 공간적으로 일관된 비디오 시퀀스를 생성한다.
- Game AI & Cinematics – 게임 엔진은 모델을 이용해 레벨 기하를 존중하는 컷신을 자동 생성함으로써 수동 카메라 경로 설계 작업을 감소시킬 수 있다.
- Video Editing Tools – 편집자는 “파란 차로 줌 인” 혹은 “왼쪽으로 45° 팬”과 같은 명령을 내리면, 장면 깊이를 고려한 비디오를 받아 후반 작업을 효율화한다.
Limitations & Future Work
- Implicit Geometry에 대한 의존 – 명시적인 깊이 감독이 없기 때문에, 특히 복잡하게 어수선한 장면에서는 스케일을 오판하는 경우가 있다.
- Instruction Ambiguity – 시스템은 잘 구성되고 모호하지 않은 명령을 전제로 하며, 애매하거나 다단계 지시를 처리하는 것은 아직 과제이다.
- Computational Cost – 고해상도 비디오에 대한 확산 샘플링은 여전히 비용이 많이 들어 실시간 적용에 제한이 있다.
- Future Directions – 저자들은 경량 깊이 사전 정보를 통합하고, 다단계 작업을 위한 계층적 계획을 탐색하며, 증류와 같은 방법으로 샘플링을 최적화해 온‑디바이스 사용에 가까워지는 방안을 제시한다.
Authors
- Zeqi Xiao
- Yiwei Zhao
- Lingxiao Li
- Yushi Lan
- Yu Ning
- Rahul Garg
- Roshni Cooper
- Mohammad H. Taghavi
- Xingang Pan
Paper Information
- arXiv ID: 2512.03040v1
- Categories: cs.CV, cs.AI
- Published: December 2, 2025
- PDF: Download PDF