[논문] AdaState: 스트리밍 비디오 생성을 위한 자체 진화형 앵커
Source: arXiv - 2605.30349v1
개요
논문 AdaState: 스트리밍 비디오 생성을 위한 자기‑진화 앵커는 자동회귀 비디오 확산 모델에서 미묘하지만 널리 퍼진 문제를 다룹니다. 첫 프레임이 영구적인 “앵커”로 취급되어 어텐션 캐시를 지배하게 되면 장면이 고정되고 움직임이 사라집니다. 이 정적인 앵커를 학습 가능한 숨겨진 상태로 교체하고 생성된 프레임과 함께 진화하도록 함으로써, 저자들은 스트리밍(청크‑단위) 방식으로 동작하면서도 카메라 움직임을 인식하는 보다 역동적인 비디오 생성 파이프라인을 구현했습니다.
주요 기여
- 적응형 숨겨진 상태(“AdaState”): 각 비디오 청크와 함께 디노이징되는 움직이는 기준점으로, 고정된 첫 프레임 앵커를 대체합니다.
- 상대‑시간 공식화: 동일한 위치 구조를 매 생성 단계마다 재사용해 전이 함수를 시간 불변으로 만들고 자연스러운 재귀성을 도입합니다.
- 캐시‑전용 재귀: 트랜스포머의 KV(키‑값) 캐시가 진화하는 상태를 전달하는 역할을 겸해 외부 재귀 모듈이 필요 없게 합니다.
- 실험적 검증: 표준 비디오 확산 벤치마크에서 움직임, 카메라 팬, 장면 진화가 현저히 풍부해짐을 보여줍니다.
- 개념적 연결 고리: 확산 기반 비디오 생성과 고전적인 재귀 모델 사이의 다리를 놓아 스트리밍 생성 시스템을 위한 새로운 설계 공간을 열었습니다.
방법론
- 기본 아키텍처 – 저자들은 고정 크기 청크로 비디오를 처리하는 전형적인 자동회귀 비디오 확산 모델을 출발점으로 삼습니다. 첫 프레임의 잠재 표현이 트랜스포머 KV 캐시에 저장되고 반복적으로 어텐션 대상이 되어 정적인 장면 앵커 역할을 합니다.
- AdaState 도입 – 고정된 첫 프레임 잠재 대신, 학습 가능한 숨겨진 벡터(“상태”)를 매 단계마다 캐시에 삽입합니다. 이 상태는 렌더링되지 않으며, 다음 청크를 위한 맥락 신호로만 사용됩니다.
- 공동 디노이징 – 각 확산 단계에서 모델은 가시적인 콘텐츠(현재 청크)와 숨겨진 상태를 동시에 디노이징합니다. 상태 업데이트 함수는 가시 프레임에 사용되는 동일한 확산 전이 함수를 사용해 훈련 목표를 통합합니다.
- 상대 위치 인코딩 – 위치 임베딩을 절대 시간 인덱스가 아니라 현재 청크에 상대적으로 정의합니다. 따라서 이미 생성된 청크 수와 무관하게 동일한 위치 패턴을 보게 되어 상태 전이가 시간 불변이 됩니다.
- 훈련 및 추론 – 일반적인 확산 손실을 사용해 엔드‑투‑엔드로 훈련하지만, 손실이 숨겨진 상태 업데이트에도 역전파됩니다. 추론 시에는 숨겨진 상태가 KV 캐시 안에 그대로 전달되므로 기존 트랜스포머 캐시 외에 추가 메모리·연산이 필요하지 않습니다.
결과 및 고찰
- 동작 품질 – 정적 앵커 기반 대비 정량적 지표(FVD, 시간별 LPIPS 등)가 15‑25 % 향상되어 보다 현실적인 움직임 궤적을 보여줍니다.
- 카메라 동역학 – 시각적 검토에서 부드러운 팬 및 줌이 확인되며, 모델이 초기 시점에 “고정”되지 않음을 확인할 수 있습니다.
- 시간적 일관성 – 진화하는 앵커에도 불구하고 프레임 간 일관성은 높게 유지되어 적응형 상태가 안정성을 해치지 않음을 증명합니다.
- 소거 실험 – 상대‑시간 인코딩을 제거하거나 상태를 공동 디노이징 없이 훈련하면 성능이 다시 베이스라인 수준으로 떨어져 두 요소의 중요성을 확인합니다.
실용적 함의
- 스트리밍 콘텐츠 제작 – 실시간 비디오 생성 도구(예: 가상 아바타, 라이브 스트림 오버레이)를 개발하는 경우 전체 시퀀스를 미리 계산할 필요 없이 더 길고 역동적인 클립을 생성할 수 있습니다.
- 게임 엔진 및 VR – 재귀 기반 접근 방식은 절차적 콘텐츠 생성을 위해 기존 트랜스포머‑캐시 파이프라인에 자연스럽게 녹아들어 카메라 움직임을 고려한 실시간 장면 진화를 가능하게 합니다.
- 저지연 파이프라인 – AdaState가 KV 캐시 내부에 존재하므로 추가 모델이나 메모리 오버헤드가 없으며, 지연 시간이 중요한 엣지 디바이스나 클라우드‑GPU 환경에 적합합니다.
- 하이브리드 생성 시스템 – 상대‑시간·상태 전이 관점은 확산과 고전적인 RNN‑스타일 컨트롤러(예: 사용자 지정 카메라 경로)를 구조적 제약 없이 결합할 수 있는 길을 엽니다.
한계 및 향후 연구
- 숨겨진 상태 해석 가능성 – 적응형 상태는 블랙박스 잠재 변수이며, 장면의 어떤 요소를 인코딩하는지 파악하는 연구가 필요합니다.
- 극장기 비디오에 대한 확장성 – 캐시 재귀는 효율적이지만 매우 긴 시퀀스는 여전히 메모리 한계에 부딪힐 수 있어 계층적 캐싱 전략이 탐색될 수 있습니다.
- 다중모달 조건화 일반화 – 현재는 무조건 생성에 초점을 맞추었으며, 텍스트‑투‑비디오나 오디오‑구동 시나리오로 AdaState를 확장하는 것이 자연스러운 다음 단계입니다.
- 벤치마크 다양성 – 실험은 몇 개의 표준 확산 데이터셋에 국한되었으므로, 고해상도·도메인 특화 비디오(예: 의료 영상, 자율주행 영상)에서 검증하면 견고성을 더욱 입증할 수 있습니다.
AdaState는 장면 앵커를 학습 가능한, 진화하는 숨겨진 상태로 바꾸는 작은 변화만으로도 스트리밍 비디오 확산 모델에 새로운 수준의 역동성을 제공한다는 점을 보여줍니다. 이는 개발자들에게 더 풍부하고 인터랙티브한 생성 비디오 응용 프로그램을 실현할 실용적인 길을 제시합니다.
저자
- Yusuf Dalva
- Pinar Yanardag
논문 정보
- arXiv ID: 2605.30349v1
- 분류: cs.CV
- 발표일: 2026년 5월 28일
- PDF: Download PDF