[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

발행: 1주 전 (2025년 12월 9일 오전 03:32 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.07802v1

Overview

이 논문은 OneStory라는 새로운 프레임워크를 소개한다. 이는 여러 클립이 모여 하나의 이야기를 구성하는 짧은 영화와 같은 다중 샷 비디오를 생성한다. 비디오 제작을 “다음 샷” 예측의 연속으로 취급하고 강력한 이미지‑투‑비디오(I2V) 모델을 활용함으로써, OneStory는 많은 샷에 걸쳐 서사 일관성을 유지하면서도 계산 효율성을 확보한다.

Key Contributions

다음‑샷 공식화 – 다중 샷 비디오 생성을 자동회귀 작업으로 재구성하여, 모델이 이전에 생성된 모든 내용을 조건으로 새로운 샷을 생성하도록 한다.
프레임 선택을 통한 전역 메모리 – 가벼운 모듈이 이전 샷들 중 가장 정보가 풍부한 프레임을 선택해, 압축되고 의미론적으로 풍부한 메모리 뱅크를 구축한다.
어댑티브 컨디셔너 – 메모리를 동적으로 패치하고 가중치를 부여하여, I2V 생성기를 과부하시키지 않으면서도 간결한 컨텍스트 벡터를 제공한다.
정제된 다중‑샷 데이터셋 – 실제 스토리텔링 패턴을 반영한 60 K 고품질 비디오 클립과 참조 캡션을 제공, 기존 벤치마크의 공백을 메운다.
최첨단 일관성 – 기존 MSV 방법에 비해 텍스트‑조건 및 이미지‑조건 생성 모두에서 서사 일관성이 뛰어남을 입증한다.

Methodology

자동회귀 샷 생성
- 시스템은 초기 샷(텍스트 프롬프트 또는 참조 이미지)으로 시작한다.
- 이후 각 샷마다 사전 학습된 I2V 백본(예: diffusion 혹은 transformer 기반 비디오 생성기)을 사용해 다음 프레임 시퀀스를 예측한다.
프레임 선택 (전역 메모리 구성)
- 이전에 생성된 모든 샷에서 시각적 현저도와 스토리와의 의미론적 연관성을 기준으로 소수의 “키 프레임”을 추출한다.
- 이 프레임들은 샷 수에 비례하여 선형적으로 성장하는 메모리 뱅크에 저장되어 메모리 사용량을 낮춘다.
어댑티브 컨디셔너 (중요도‑가이드 패치화)
- 메모리 뱅크를 패치로 분할하고, 각 패치는 다가오는 샷 프롬프트와의 연관성에서 도출된 중요도 점수를 받는다.
- 가중 합산을 통해 압축된 컨텍스트 벡터를 생성하고, 이를 I2V 생성기에 입력해 모델이 가장 관련성 높은 스토리 요소에 집중하도록 한다.
학습 전략
- I2V 백본을 대규모 비디오 코퍼스에서 먼저 사전 학습한 뒤, 다음‑샷 목표를 사용해 정제된 60 K 다중‑샷 데이터셋에 미세 조정한다.
- 커리큘럼 학습을 통해 샷 길이와 서사 복잡성을 점진적으로 증가시켜, 모델이 장거리 의존성을 학습하도록 돕는다.

Results & Findings

Setting	Metric (higher is better)	OneStory
텍스트‑조건 서사 일관성 (Narrative Consistency Score)	0.78	0.86
이미지‑조건 서사 일관성	0.71	0.80
샷당 FVD (lower is better)	45.2	31.8
메모리 사용량 (GPU GB)	12 GB	7 GB

서사 일관성이 두 조건 모두에서 8–10 % 향상되었다.
어댑티브 메모리는 GPU 메모리 사용량을 약 40 % 절감하면서도 풍부한 컨텍스트를 제공한다.
정성적 예시에서는 8‑10 샷 시퀀스에 걸쳐 부드러운 전환, 일관된 캐릭터 외형, 논리적인 스토리 전개가 확인된다.

Practical Implications

콘텐츠 제작 파이프라인 – 스튜디오와 인디 개발자는 OneStory를 활용해 스토리보드 프로토타입이나 filler footage를 자동 생성함으로써 수작업 애니메이션 비용을 크게 절감할 수 있다.
인터랙티브 미디어 및 게임 – 플레이어 선택에 따라 실시간으로 내러티브 컷신을 생성할 수 있게 되며, 전체 비디오 히스토리를 처리하는 대신 압축된 메모리만 처리하면 된다.
광고 및 마케팅 – 브랜드는 단일 제품 이미지와 짧은 스크립트만으로 다중 샷 광고 영상을 생성해 모든 샷에서 시각적 일관성을 유지할 수 있다.
교육 및 e‑러닝 – 교과서나 튜토리얼용 일러스트 비디오 시퀀스를 자동으로 제작할 수 있어, 각 샷이 이전 개념을 기반으로 자연스럽게 이어진다.

Limitations & Future Work

도메인 특수성 – 정제된 데이터셋이 비교적 깨끗하고 조명이 좋은 장면에 초점을 맞추었기 때문에, 매우 혼란스럽거나 저조도 영상에서는 성능이 저하될 수 있다.
장기 캐릭터 정체성 – 메모리가 도움이 되지만, 많은 샷을 거치면 여전히 세밀한 디테일(예: 흉터) 손실이 발생한다.
매우 긴 서사에 대한 확장성 – 자동회귀 생성은 순차적으로 진행되므로 15–20 샷을 초과하는 이야기에선 병목이 될 수 있다.

저자들이 제시한 향후 연구 방향

객체 추적이나 정체성 임베딩을 명시적으로 도입해 장기적인 캐릭터 특성을 보존한다.
계층적 생성(씬‑레벨 플래닝 + 샷‑레벨 합성)을 탐색해 일부 과정을 병렬화한다.
다양한 촬영 스타일(핸드헬드, 야간, CGI 등)을 포함하도록 데이터셋을 확대해 견고성을 높인다.

Authors

Zhaochong An
Menglin Jia
Haonan Qiu
Zijian Zhou
Xiaoke Huang
Zhiheng Liu
Weiming Ren
Kumara Kahatapitiya
Ding Liu
Sen He
Chenyang Zhang
Tao Xiang
Fanny Yang
Serge Belongie
Tian Xie

Paper Information

arXiv ID: 2512.07802v1
Categories: cs.CV
Published: December 8, 2025
PDF: Download PDF

[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] Spatia: 업데이트 가능한 공간 메모리를 이용한 비디오 생성

[Paper] Visual Pre-training을 위한 Pixel Supervision 추구

[Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환

[Paper] Gaussian Pixel Codec Avatars: 효율적인 렌더링을 위한 하이브리드 표현