[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory
발행: (2025년 12월 9일 오전 03:32 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.07802v1
Overview
이 논문은 OneStory라는 새로운 프레임워크를 소개한다. 이는 여러 클립이 모여 하나의 이야기를 구성하는 짧은 영화와 같은 다중 샷 비디오를 생성한다. 비디오 제작을 “다음 샷” 예측의 연속으로 취급하고 강력한 이미지‑투‑비디오(I2V) 모델을 활용함으로써, OneStory는 많은 샷에 걸쳐 서사 일관성을 유지하면서도 계산 효율성을 확보한다.
Key Contributions
- 다음‑샷 공식화 – 다중 샷 비디오 생성을 자동회귀 작업으로 재구성하여, 모델이 이전에 생성된 모든 내용을 조건으로 새로운 샷을 생성하도록 한다.
- 프레임 선택을 통한 전역 메모리 – 가벼운 모듈이 이전 샷들 중 가장 정보가 풍부한 프레임을 선택해, 압축되고 의미론적으로 풍부한 메모리 뱅크를 구축한다.
- 어댑티브 컨디셔너 – 메모리를 동적으로 패치하고 가중치를 부여하여, I2V 생성기를 과부하시키지 않으면서도 간결한 컨텍스트 벡터를 제공한다.
- 정제된 다중‑샷 데이터셋 – 실제 스토리텔링 패턴을 반영한 60 K 고품질 비디오 클립과 참조 캡션을 제공, 기존 벤치마크의 공백을 메운다.
- 최첨단 일관성 – 기존 MSV 방법에 비해 텍스트‑조건 및 이미지‑조건 생성 모두에서 서사 일관성이 뛰어남을 입증한다.
Methodology
-
자동회귀 샷 생성
- 시스템은 초기 샷(텍스트 프롬프트 또는 참조 이미지)으로 시작한다.
- 이후 각 샷마다 사전 학습된 I2V 백본(예: diffusion 혹은 transformer 기반 비디오 생성기)을 사용해 다음 프레임 시퀀스를 예측한다.
-
프레임 선택 (전역 메모리 구성)
- 이전에 생성된 모든 샷에서 시각적 현저도와 스토리와의 의미론적 연관성을 기준으로 소수의 “키 프레임”을 추출한다.
- 이 프레임들은 샷 수에 비례하여 선형적으로 성장하는 메모리 뱅크에 저장되어 메모리 사용량을 낮춘다.
-
어댑티브 컨디셔너 (중요도‑가이드 패치화)
- 메모리 뱅크를 패치로 분할하고, 각 패치는 다가오는 샷 프롬프트와의 연관성에서 도출된 중요도 점수를 받는다.
- 가중 합산을 통해 압축된 컨텍스트 벡터를 생성하고, 이를 I2V 생성기에 입력해 모델이 가장 관련성 높은 스토리 요소에 집중하도록 한다.
-
학습 전략
- I2V 백본을 대규모 비디오 코퍼스에서 먼저 사전 학습한 뒤, 다음‑샷 목표를 사용해 정제된 60 K 다중‑샷 데이터셋에 미세 조정한다.
- 커리큘럼 학습을 통해 샷 길이와 서사 복잡성을 점진적으로 증가시켜, 모델이 장거리 의존성을 학습하도록 돕는다.
Results & Findings
| Setting | Metric (higher is better) | OneStory | Prior MSV Baselines |
|---|---|---|---|
| 텍스트‑조건 서사 일관성 (Narrative Consistency Score) | 0.78 | 0.86 | |
| 이미지‑조건 서사 일관성 | 0.71 | 0.80 | |
| 샷당 FVD (lower is better) | 45.2 | 31.8 | |
| 메모리 사용량 (GPU GB) | 12 GB | 7 GB |
- 서사 일관성이 두 조건 모두에서 8–10 % 향상되었다.
- 어댑티브 메모리는 GPU 메모리 사용량을 약 40 % 절감하면서도 풍부한 컨텍스트를 제공한다.
- 정성적 예시에서는 8‑10 샷 시퀀스에 걸쳐 부드러운 전환, 일관된 캐릭터 외형, 논리적인 스토리 전개가 확인된다.
Practical Implications
- 콘텐츠 제작 파이프라인 – 스튜디오와 인디 개발자는 OneStory를 활용해 스토리보드 프로토타입이나 filler footage를 자동 생성함으로써 수작업 애니메이션 비용을 크게 절감할 수 있다.
- 인터랙티브 미디어 및 게임 – 플레이어 선택에 따라 실시간으로 내러티브 컷신을 생성할 수 있게 되며, 전체 비디오 히스토리를 처리하는 대신 압축된 메모리만 처리하면 된다.
- 광고 및 마케팅 – 브랜드는 단일 제품 이미지와 짧은 스크립트만으로 다중 샷 광고 영상을 생성해 모든 샷에서 시각적 일관성을 유지할 수 있다.
- 교육 및 e‑러닝 – 교과서나 튜토리얼용 일러스트 비디오 시퀀스를 자동으로 제작할 수 있어, 각 샷이 이전 개념을 기반으로 자연스럽게 이어진다.
Limitations & Future Work
- 도메인 특수성 – 정제된 데이터셋이 비교적 깨끗하고 조명이 좋은 장면에 초점을 맞추었기 때문에, 매우 혼란스럽거나 저조도 영상에서는 성능이 저하될 수 있다.
- 장기 캐릭터 정체성 – 메모리가 도움이 되지만, 많은 샷을 거치면 여전히 세밀한 디테일(예: 흉터) 손실이 발생한다.
- 매우 긴 서사에 대한 확장성 – 자동회귀 생성은 순차적으로 진행되므로 15–20 샷을 초과하는 이야기에선 병목이 될 수 있다.
저자들이 제시한 향후 연구 방향
- 객체 추적이나 정체성 임베딩을 명시적으로 도입해 장기적인 캐릭터 특성을 보존한다.
- 계층적 생성(씬‑레벨 플래닝 + 샷‑레벨 합성)을 탐색해 일부 과정을 병렬화한다.
- 다양한 촬영 스타일(핸드헬드, 야간, CGI 등)을 포함하도록 데이터셋을 확대해 견고성을 높인다.
Authors
- Zhaochong An
- Menglin Jia
- Haonan Qiu
- Zijian Zhou
- Xiaoke Huang
- Zhiheng Liu
- Weiming Ren
- Kumara Kahatapitiya
- Ding Liu
- Sen He
- Chenyang Zhang
- Tao Xiang
- Fanny Yang
- Serge Belongie
- Tian Xie
Paper Information
- arXiv ID: 2512.07802v1
- Categories: cs.CV
- Published: December 8, 2025
- PDF: Download PDF