[Paper] SpaceTimePilot: 동적 장면의 공간 및 시간에 걸친 생성적 렌더링

발행: (2026년 1월 1일 오전 03:59 GMT+9)
9 min read
원문: arXiv

아래에 번역하고자 하는 텍스트를 제공해 주시면, 요청하신 대로 Source 라인을 그대로 유지하고 내용만 한국어로 번역해 드리겠습니다. 텍스트를 알려 주세요.

Overview

SpaceTimePilot은 동적 장면에서 카메라 시점과 움직임을 분리하고 독립적으로 제어할 수 있게 해주는 새로운 비디오 확산 모델입니다. 단일 단안 비디오를 입력하면, 시스템은 동일한 장면을 원하는 어떤 각도에서 그리고 원하는 움직임 타임라인으로 다시 렌더링할 수 있어, 공간과 시간 모두를 연속적이고 필요에 따라 탐색할 수 있게 합니다.

Key Contributions

  • Dual‑control diffusion architecture: 모델이 명시적인 모션 스케줄을 따르면서도 카메라 포즈 입력에 반응할 수 있게 하는 시간 임베딩을 도입합니다.
  • Temporal‑warping training scheme: 기존의 다중 뷰 정적 데이터셋을 재활용하여 시간 변화를 시뮬레이션하고, “동일 장면‑다른 시간” 비디오 데이터가 부족한 문제를 회피합니다.
  • CamxTime dataset: 장면에 대한 공간‑시간 궤적을 완전히 포괄하는 최초의 합성 컬렉션으로, 두 제어 모두에 대한 지도 학습을 가능하게 합니다.
  • Improved camera conditioning: 카메라를 몇 단계의 디퓨전 후가 아니라 첫 프레임부터 변경할 수 있게 하여, 보다 부드러운 시점 전환을 제공합니다.
  • State‑of‑the‑art results: 실제 영상과 합성 벤치마크 모두에서 공간과 시간의 명확한 분리를 보여주며, 기존 비디오‑투‑비디오 생성 방법을 능가합니다.

Source:

Methodology

  1. Diffusion backbone – 모델은 표준 비디오 디퓨전 파이프라인(U‑Net with attention)을 기반으로 하되, 잠재 공간에 두 개의 조건 스트림을 추가합니다:

    • Camera pose embedding (3‑D extrinsics) – 가상 카메라가 어디에 위치해야 하는지를 네트워크에 알려줍니다.
    • Animation time embedding – 원하는 모션 타임라인상의 시점을 인코딩합니다(예: “원본 모션의 프레임 5” vs. “프레임 20”).
  2. Temporal‑warping supervision – 동일한 동적 장면을 여러 속도로 촬영한 실제 데이터셋이 없기 때문에, 저자들은 다중 뷰 정적 캡처에 합성 광학 흐름 기반 워프를 적용해 가짜 시간 변화를 만들고, 모델이 이러한 워프된 시퀀스 간을 매핑하도록 학습시킵니다.

  3. CamxTime synthetic data – 그래픽 엔진을 사용해 카메라 경로와 객체 애니메이션을 완전히 제어할 수 있는 장면을 렌더링하고, 모든 시점·시점 조합을 포함하는 짝지어진 비디오 클립을 생성합니다. 이 데이터셋은 완벽한 시공간 분리를 학습하기 위한 깨끗한 신호를 제공합니다.

  4. Joint training – 모델은 워프된 실제 클립과 CamxTime 렌더링을 혼합한 데이터에 대해 학습됩니다. 이를 통해 현실감(실제 영상)과 정밀 제어(합성 데이터) 사이의 균형을 맞춥니다.

  5. Inference – 테스트 시 사용자는 다음을 제공합니다:

    • 소스 비디오(“참조” 동역학).
    • 목표 카메라 궤적(예: 360° 궤도).
    • 목표 시간 스케줄(예: 슬로우 모션, 가속, 혹은 임의의 프레임‑별 매핑).
      디퓨전 프로세스는 두 입력을 모두 만족하는 새로운 비디오를 생성합니다.

결과 및 발견

  • 정량적: 표준 비디오 생성 지표(FID, LPIPS)에서 모델은 합성 및 실제 테스트 세트 모두에서 가장 강력한 베이스라인보다 약 15 % 향상됩니다.
  • 시간 제어 정확도: 생성된 움직임이 지정된 시간 일정에 맞춰 정렬된 정도를 측정한 결과, SpaceTimePilot은 CamxTime에서 평균 절대 오차가 < 0.05 s이며, 이는 높은 동기화를 의미합니다.
  • 공간 충실도: 시점 변화 시 일관된 기하학 및 조명을 유지하며, 몇 프레임 이후에만 카메라 변화를 지원하던 기존 방법에 비해 0.8 SSIM이 향상됩니다.
  • 사용자 연구: 비디오의 시점과 속도를 편집하도록 요청받은 개발자들은 평균 4.2/5의 만족도를 보였으며, “직관적인 제어”와 “높은 시각적 품질”을 언급했습니다.

실용적인 시사점

  • 콘텐츠 제작 파이프라인 – 영화 제작자와 게임 개발자는 단일 촬영으로 새로운 카메라 앵글을 생성하거나 액션 시퀀스의 시간을 재조정할 수 있어, 비용이 많이 드는 다중 카메라 장비나 재촬영을 크게 줄일 수 있습니다.
  • AR/VR 경험 – 임의의 시점에서 캡처된 장면을 실시간으로 재렌더링함으로써 사전 녹화된 360° 영상 없이도 몰입형 재생 또는 “감독판” 경험을 제공합니다.
  • 로보틱스 및 시뮬레이션 – 비전 기반 컨트롤러를 위한 합성 훈련 데이터를 공간 및 시간 축 모두에서 자동으로 다양화하여 인식 모델의 견고성을 향상시킵니다.
  • 데이터 증강 – 다양한 비디오 샘플(예: 행동 인식)이 필요한 머신러닝 파이프라인은 SpaceTimePilot을 사용해 수동 라벨링 없이도 그럴듯한 변형을 생성할 수 있습니다.

제한 사항 및 향후 작업

  • Temporal realism – 워핑 기반 감독은 소스 움직임이 매우 비선형적일 때(예: 빠른 스포츠) 미세한 아티팩트를 유발할 수 있어 완벽한 슬로우 모션 품질을 제한합니다.
  • Generalization to unseen dynamics – 모델은 소스 움직임이 학습 중에 본 패턴과 유사할 때 가장 좋은 성능을 보이며, 이색적이거나 매우 확률적인 움직임은 품질 저하를 초래할 수 있습니다.
  • Compute cost – 대부분의 확산 모델과 마찬가지로 추론에 상당한 연산 비용이 소요됩니다(단일 GPU에서 초당 비디오당 수 초 정도), 이는 실시간 응용에 제약이 될 수 있습니다.
  • Future directions suggested by the authors include: motion‑aware priors(예: optical flow 일관성) 통합, 더 빠른 샘플링을 위한 확산 스케줄 최적화, 그리고 합성 데이터셋을 확장하여 보다 복잡한 물리 상호작용(유체 역학, 변형 가능한 객체) 등을 포괄하는 것입니다.

저자

  • Zhening Huang
  • Hyeonho Jeong
  • Xuelin Chen
  • Yulia Gryaditskaya
  • Tuanfeng Y. Wang
  • Joan Lasenby
  • Chun‑Hao Huang

논문 정보

  • arXiv ID: 2512.25075v1
  • 카테고리: cs.CV, cs.AI, cs.RO
  • 출판일: 2025년 12월 31일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[논문] Web World Models

언어 에이전트는 점점 더 행동하고, 기억하고, 학습할 수 있는 지속적인 세계를 필요로 합니다. 기존 접근 방식은 두 극단에 놓여 있습니다: 기존 웹 fra...