[Paper] Spatia: 업데이트 가능한 공간 메모리를 이용한 비디오 생성

발행: (2025년 12월 18일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.15716v1

개요

이 논문은 Spatia라는 비디오 생성 프레임워크를 소개합니다. Spatia는 장면의 지속적인 3‑D 포인트 클라우드를 “공간 메모리”로 유지합니다. 시각‑SLAM 기법을 사용해 이 메모리를 지속적으로 업데이트함으로써, Spatia는 공간적으로 일관된 동시에 현실적인 움직이는 객체를 렌더링하는 긴 비디오 시퀀스를 합성할 수 있습니다. 이 접근 방식은 고전적인 3‑D 재구성 파이프라인과 최신 생성 모델 사이의 격차를 메우며, 제어 가능한 3‑D‑인식 비디오 제작의 가능성을 열어줍니다.

Key Contributions

  • Explicit spatial memory: 장면의 3‑D 포인트 클라우드를 저장하여 생성된 클립들 사이에서도 유지되며, 기하학에 대한 전역 참조 역할을 합니다.
  • Dynamic‑static disentanglement: 공간 메모리가 처리하는 정적 배경과 기존 비디오 확산/트랜스포머 모델이 생성하는 동적 전경을 분리합니다.
  • Iterative clip‑wise generation & update: 각 짧은 클립은 현재 메모리를 조건으로 생성되고, 이후 시각 SLAM 모듈을 통해 메모리가 정제되어 장기 일관성을 가능하게 합니다.
  • Camera‑controlled synthesis: 메모리가 실제 3‑D 표현이기 때문에, 사용자는 생성 과정에서 가상 카메라(포즈, 궤적)를 명시적으로 조작할 수 있습니다.
  • 3‑D‑aware interactive editing: 객체를 포인트 클라우드에 추가, 제거 또는 재배치할 수 있으며, 모델은 이에 따라 비디오를 다시 렌더링합니다.

방법론

  1. Spatial Memory Initialization – 짧은 시드 비디오(또는 단일 프레임)를 SLAM 엔진으로 처리하여 포인트당 색상과 깊이를 가진 초기 희소 포인트 클라우드를 생성합니다.
  2. Clip‑wise Generation – 생성 백본(예: 비디오 확산 모델)이 현재 카메라 자세와 공간 메모리를 조건 입력으로 받아 다음 몇 프레임을 예측합니다. 이때 동적인 요소(사람, 자동차 등)에 초점을 맞춥니다.
  3. Memory Update – 새로 생성된 프레임을 SLAM 모듈에 다시 입력하여 포인트 클라우드를 정제합니다: 새로운 정적 표면을 추가하고, 가려진 포인트를 제거하며, 색상을 업데이트합니다.
  4. Iterative Loop – 2‑3 단계를 필요한 만큼 반복하여 시스템이 임의의 길이의 비디오를 생성하도록 하고, 메모리는 장면의 보다 완전한 3‑D 모델을 축적합니다.
  5. Control Interfaces – 메모리가 명시적이기 때문에 개발자는 사용자 정의 카메라 궤적을 삽입하거나 포인트 클라우드를 직접 편집(예: 객체의 포인트 이동)할 수 있으며, 다음 생성 단계에서 이러한 변경을 반영합니다.

이 파이프라인은 의도적으로 모듈식으로 설계되었습니다: 기존 SLAM 시스템을 자유롭게 교체할 수 있으며, 생성 컴포넌트는 확산 모델, 트랜스포머, 또는 GAN 등으로 구현할 수 있어 기존 비디오 생성 스택에 쉽게 적용할 수 있습니다.

결과 및 발견

  • 공간 일관성: 정량적 지표(예: 장기간 시퀀스의 PSNR/SSIM 및 새롭게 제안된 “3‑D 일관성 점수”)가 메모리가 없는 기존 비디오 확산 모델에 비해 15‑20 % 향상을 보입니다.
  • 시간적 안정성: 깜빡임과 진동이 크게 감소했으며, 사용자 연구에서 인지된 부드러움이 30 % 더 높게 보고되었습니다.
  • 카메라 제어 정확도: 사용자가 새로운 카메라 경로를 지정하면, 생성된 프레임이 의도된 기하학을 서브픽셀 재투영 오차 수준으로 따라가며, 이는 이전 모델들이 어려워하던 점입니다.
  • 인터랙티브 편집: 포인트 클라우드에서 객체를 이동시키는 실험을 통해 모델이 눈에 띄는 아티팩트 없이 장면을 원활하게 재렌더링할 수 있음을 보여주며, 동적‑정적 분할이 실제로 작동함을 확인합니다.

Practical Implications

  • Game & VR content pipelines – 개발자는 장시간 플레이 세션 동안 기하학적으로 일관된 배경 비디오 자산을 생성할 수 있어, 수작업 레벨 기하학에 대한 필요성을 줄일 수 있습니다.
  • Synthetic data for perception – 자율주행 및 로봇팀은 제어 가능한 카메라 움직임과 정확한 3‑D 장면 레이아웃을 갖춘 무한한 포토리얼리스틱 비디오 스트림을 생성하여 학습 데이터 다양성을 향상시킬 수 있습니다.
  • Film & VFX pre‑visualization – 감독은 스토리가 전개됨에 따라 자동으로 업데이트되는 “디지털 세트”로 메모리를 활용해 카메라 움직임과 장면 편집을 빠르게 프로토타이핑할 수 있습니다.
  • AR/Live‑stream overlays – 실시간 애플리케이션은 지속적으로 업데이트되는 포인트 클라우드 덕분에 정적 환경의 기하학을 유지하면서 생성된 동적 요소(예: 가상 캐릭터)를 라이브 비디오에 삽입할 수 있습니다.

제한 사항 및 향후 연구

  • 메모리 확장성 – 포인트 클라우드는 장면 크기에 따라 증가합니다; 현재 실험은 제한된 실내/실외 환경에 한정됩니다. 도시 규모 장면을 위해 효율적인 프루닝 또는 계층적 표현이 필요합니다.
  • SLAM 의존성 – 비주얼‑SLAM 프론트엔드의 오류(예: 드리프트, 저텍스처 영역에서의 깊이 부족)가 생성된 비디오에 전파됩니다. SLAM 구성 요소를 견고하게 만들거나 보정 모듈을 학습하는 것이 향후 과제입니다.
  • 동적 객체 기하학 – 동역학은 생성 모델이 처리하지만, 시스템은 변형 가능한 3‑D 형태를 명시적으로 모델링하지 않아 복잡한 움직임(예: 옷감)에서 현실감이 제한됩니다.
  • 실시간 성능 – 반복적인 생성‑업데이트 루프는 여전히 계산 비용이 높습니다; 향후 연구에서는 경량 diffusion 변형이나 GPU 가속 SLAM을 탐색하여 인터랙티브 속도에 접근할 수 있습니다.

저자

  • Jinjing Zhao
  • Fangyun Wei
  • Zhening Liu
  • Hongyang Zhang
  • Chang Xu
  • Yan Lu

논문 정보

  • arXiv ID: 2512.15716v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2025년 12월 17일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »