[Paper] MemFlow: 일관되고 효율적인 장시간 비디오 내러티브를 위한 흐르는 적응형 메모리
Source: arXiv - 2512.14699v1
개요
이 논문은 MemFlow를 소개합니다. 이는 스트리밍 비디오 생성용 새로운 메모리‑관리 시스템으로, 추론 속도를 늦추지 않으면서 장거리 서사 일관성을 유지합니다. 향후 텍스트 프롬프트에 기반해 가장 관련성 높은 과거 프레임을 동적으로 가져옴으로써, MemFlow는 비디오 모델이 스토리를 유지하면서도 메모리‑프리 베이스라인만큼 빠르게 동작하도록 합니다.
주요 기여
- Adaptive memory retrieval: 각 비디오 청크가 생성되기 전에 MemFlow는 청크의 텍스트 프롬프트를 사용해 메모리 뱅크를 질의하고, 의미적으로 가장 관련성이 높은 과거 프레임을 가져옵니다.
- Sparse attention activation: 생성 과정에서 가져온 토큰들만을 주목하여, 긴 컨텍스트 어텐션의 계산 비용을 크게 줄입니다.
- Plug‑and‑play design: MemFlow는 KV‑cache를 이미 사용하고 있는 모든 스트리밍 비디오 생성기(예: diffusion 또는 autoregressive 모델) 위에서 동작합니다.
- Near‑zero overhead: 실험 결과, 과거 컨텍스트를 모두 버리는 모델에 비해 오직 7.9 % 정도만 느려지면서도 일관성이 훨씬 뛰어남을 보여줍니다.
- Extensive evaluation: 저자들은 여러 장기 비디오 데이터셋에서 벤치마크를 수행하여, 정량적 향상(더 높은 CLIP‑Score, 낮은 FVD)과 서사적 일관성 측면에서의 질적 개선을 모두 입증했습니다.
방법론
- Memory Bank Construction – 모델이 스트리밍되는 동안, 생성된 각 프레임(또는 짧은 청크)은 시각적 임베딩 및 관련 텍스트 프롬프트와 함께 저장됩니다.
- Prompt‑guided Retrieval – 새로운 청크가 합성되기 직전, 현재 프롬프트를 인코딩하여 저장된 임베딩을 순위 매깁니다(예: 코사인 유사도 사용). 상위 K개의 가장 관련성 높은 프레임을 임시 “active memory”로 가져옵니다.
- Sparse Cross‑Attention – 비디오 생성기의 어텐션 레이어에서, 현재 청크의 쿼리는 전체 히스토리가 아니라 active memory의 토큰에만 어텐션합니다. 이는 어텐션의 2차 비용을 감소시키면서 가장 유용한 컨텍스트를 유지합니다.
- Integration with KV‑Cache – 검색된 토큰을 기존 키‑값 캐시에 주입하여, 하위 모델이 마치 일반 메모리의 일부인 것처럼 인식하게 하며, 아키텍처 변경이 필요 없습니다.
파이프라인은 매 새로운 청크마다 반복되며, 진화하는 스토리라인을 반영하도록 active memory를 지속적으로 새롭게 합니다.
Results & Findings
| 지표 | Baseline (메모리 없음) | 고정‑전략 메모리 | MemFlow |
|---|---|---|---|
| CLIP‑Score (높을수록 좋음) | 0.71 | 0.78 | 0.84 |
| FVD (낮을수록 좋음) | 210 | 165 | 112 |
| 추론 지연 | 0 % | +12 % | +7.9 % |
| 인간 일관성 평가 (1‑5) | 2.8 | 3.6 | 4.3 |
- Narrative coherence가 크게 향상되며, 특히 이야기가 새로운 사건을 도입하거나 장면이 전환될 때 그 효과가 두드러집니다.
- Computation은 주의가 동적으로 선택된 소규모 프레임 집합에만 제한되기 때문에 거의 증가하지 않습니다.
- 이 방법은 여러 백본 생성기(예: Text‑to‑Video diffusion, autoregressive transformers)와 compatible하게 작동하여 일반성을 확인했습니다.
실용적인 시사점
- 콘텐츠 제작 플랫폼(예: AI‑기반 비디오 편집기, 게임 컷신 생성기)은 이제 대용량 GPU 메모리 없이도 스크립트를 유지하면서 시간 단위의 영상을 제작할 수 있다.
- 실시간 스트리밍 서비스(실시간 AI 아바타, 인터랙티브 스토리텔링)는 낮은 지연 오버헤드의 이점을 받아 사용자 경험을 더욱 부드럽게 만든다.
- 개발자 워크플로우가 간소화된다: MemFlow는 기존 모델을 감싸는 드롭‑인 모듈로, 팀이 처음부터 재학습 없이 일관성을 향상시킬 수 있다.
- 엣지 배포가 가능해진다, 메모리 사용량이 제한되어 언제든 가장 관련성 높은 K 프레임만 활성화되기 때문이다.
제한 사항 및 향후 작업
- 검색 품질은 임베딩 공간에 의존합니다. 시각 인코더가 미묘한 의미적 뉘앙스를 포착하지 못하면 가장 “관련성 높은” 프레임이 최적이 아닐 수 있습니다.
- 고정 K‑value: 현재 구현은 검색되는 프레임 수를 고정값으로 사용합니다; 프롬프트 복잡도에 따라 적응형 K를 적용하면 효율성을 더욱 향상시킬 수 있습니다.
- 전체 은행의 확장성: 활성 메모리는 작지만, 기본 은행은 비디오 길이에 따라 선형적으로 증가합니다; 대규모 스트림에 대비한 가지치기 전략이 필요합니다.
- 다양한 모달리티: 이 접근 방식을 멀티모달 입력(오디오, 모션 캡처) 및 비텍스트 프롬프트로 확장하는 것이 향후 과제입니다.
전체적으로 MemFlow는 스마트하고 프롬프트 기반 메모리 관리가 장시간 서사 충실도와 실시간 성능 사이의 격차를 메울 수 있음을 보여줍니다—다음 세대 AI 비디오 생성 도구를 위한 고무적인 단계입니다.
저자
- Sihui Ji
- Xi Chen
- Shuai Yang
- Xin Tao
- Pengfei Wan
- Hengshuang Zhao
논문 정보
- arXiv ID: 2512.14699v1
- 분류: cs.CV
- 출판일: 2025년 12월 16일
- PDF: PDF 다운로드