[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

발행: (2025년 12월 9일 오전 03:32 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.07802v1

Overview

이 논문은 OneStory라는 새로운 프레임워크를 소개한다. 이는 여러 클립이 모여 하나의 이야기를 구성하는 짧은 영화와 같은 다중 샷 비디오를 생성한다. 비디오 제작을 “다음 샷” 예측의 연속으로 취급하고 강력한 이미지‑투‑비디오(I2V) 모델을 활용함으로써, OneStory는 많은 샷에 걸쳐 서사 일관성을 유지하면서도 계산 효율성을 확보한다.

Key Contributions

  • 다음‑샷 공식화 – 다중 샷 비디오 생성을 자동회귀 작업으로 재구성하여, 모델이 이전에 생성된 모든 내용을 조건으로 새로운 샷을 생성하도록 한다.
  • 프레임 선택을 통한 전역 메모리 – 가벼운 모듈이 이전 샷들 중 가장 정보가 풍부한 프레임을 선택해, 압축되고 의미론적으로 풍부한 메모리 뱅크를 구축한다.
  • 어댑티브 컨디셔너 – 메모리를 동적으로 패치하고 가중치를 부여하여, I2V 생성기를 과부하시키지 않으면서도 간결한 컨텍스트 벡터를 제공한다.
  • 정제된 다중‑샷 데이터셋 – 실제 스토리텔링 패턴을 반영한 60 K 고품질 비디오 클립과 참조 캡션을 제공, 기존 벤치마크의 공백을 메운다.
  • 최첨단 일관성 – 기존 MSV 방법에 비해 텍스트‑조건 및 이미지‑조건 생성 모두에서 서사 일관성이 뛰어남을 입증한다.

Methodology

  1. 자동회귀 샷 생성

    • 시스템은 초기 샷(텍스트 프롬프트 또는 참조 이미지)으로 시작한다.
    • 이후 각 샷마다 사전 학습된 I2V 백본(예: diffusion 혹은 transformer 기반 비디오 생성기)을 사용해 다음 프레임 시퀀스를 예측한다.
  2. 프레임 선택 (전역 메모리 구성)

    • 이전에 생성된 모든 샷에서 시각적 현저도와 스토리와의 의미론적 연관성을 기준으로 소수의 “키 프레임”을 추출한다.
    • 이 프레임들은 샷 수에 비례하여 선형적으로 성장하는 메모리 뱅크에 저장되어 메모리 사용량을 낮춘다.
  3. 어댑티브 컨디셔너 (중요도‑가이드 패치화)

    • 메모리 뱅크를 패치로 분할하고, 각 패치는 다가오는 샷 프롬프트와의 연관성에서 도출된 중요도 점수를 받는다.
    • 가중 합산을 통해 압축된 컨텍스트 벡터를 생성하고, 이를 I2V 생성기에 입력해 모델이 가장 관련성 높은 스토리 요소에 집중하도록 한다.
  4. 학습 전략

    • I2V 백본을 대규모 비디오 코퍼스에서 먼저 사전 학습한 뒤, 다음‑샷 목표를 사용해 정제된 60 K 다중‑샷 데이터셋에 미세 조정한다.
    • 커리큘럼 학습을 통해 샷 길이와 서사 복잡성을 점진적으로 증가시켜, 모델이 장거리 의존성을 학습하도록 돕는다.

Results & Findings

SettingMetric (higher is better)OneStoryPrior MSV Baselines
텍스트‑조건 서사 일관성 (Narrative Consistency Score)0.780.86
이미지‑조건 서사 일관성0.710.80
샷당 FVD (lower is better)45.231.8
메모리 사용량 (GPU GB)12 GB7 GB
  • 서사 일관성이 두 조건 모두에서 8–10 % 향상되었다.
  • 어댑티브 메모리는 GPU 메모리 사용량을 약 40 % 절감하면서도 풍부한 컨텍스트를 제공한다.
  • 정성적 예시에서는 8‑10 샷 시퀀스에 걸쳐 부드러운 전환, 일관된 캐릭터 외형, 논리적인 스토리 전개가 확인된다.

Practical Implications

  • 콘텐츠 제작 파이프라인 – 스튜디오와 인디 개발자는 OneStory를 활용해 스토리보드 프로토타입이나 filler footage를 자동 생성함으로써 수작업 애니메이션 비용을 크게 절감할 수 있다.
  • 인터랙티브 미디어 및 게임 – 플레이어 선택에 따라 실시간으로 내러티브 컷신을 생성할 수 있게 되며, 전체 비디오 히스토리를 처리하는 대신 압축된 메모리만 처리하면 된다.
  • 광고 및 마케팅 – 브랜드는 단일 제품 이미지와 짧은 스크립트만으로 다중 샷 광고 영상을 생성해 모든 샷에서 시각적 일관성을 유지할 수 있다.
  • 교육 및 e‑러닝 – 교과서나 튜토리얼용 일러스트 비디오 시퀀스를 자동으로 제작할 수 있어, 각 샷이 이전 개념을 기반으로 자연스럽게 이어진다.

Limitations & Future Work

  • 도메인 특수성 – 정제된 데이터셋이 비교적 깨끗하고 조명이 좋은 장면에 초점을 맞추었기 때문에, 매우 혼란스럽거나 저조도 영상에서는 성능이 저하될 수 있다.
  • 장기 캐릭터 정체성 – 메모리가 도움이 되지만, 많은 샷을 거치면 여전히 세밀한 디테일(예: 흉터) 손실이 발생한다.
  • 매우 긴 서사에 대한 확장성 – 자동회귀 생성은 순차적으로 진행되므로 15–20 샷을 초과하는 이야기에선 병목이 될 수 있다.

저자들이 제시한 향후 연구 방향

  • 객체 추적이나 정체성 임베딩을 명시적으로 도입해 장기적인 캐릭터 특성을 보존한다.
  • 계층적 생성(씬‑레벨 플래닝 + 샷‑레벨 합성)을 탐색해 일부 과정을 병렬화한다.
  • 다양한 촬영 스타일(핸드헬드, 야간, CGI 등)을 포함하도록 데이터셋을 확대해 견고성을 높인다.

Authors

  • Zhaochong An
  • Menglin Jia
  • Haonan Qiu
  • Zijian Zhou
  • Xiaoke Huang
  • Zhiheng Liu
  • Weiming Ren
  • Kumara Kahatapitiya
  • Ding Liu
  • Sen He
  • Chenyang Zhang
  • Tao Xiang
  • Fanny Yang
  • Serge Belongie
  • Tian Xie

Paper Information

  • arXiv ID: 2512.07802v1
  • Categories: cs.CV
  • Published: December 8, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »