[논문] AdaState: 스트리밍 비디오 생성을 위한 자체 진화형 앵커

발행: 1주 전 (2026년 5월 29일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.30349v1

개요

논문 AdaState: 스트리밍 비디오 생성을 위한 자기‑진화 앵커는 자동회귀 비디오 확산 모델에서 미묘하지만 널리 퍼진 문제를 다룹니다. 첫 프레임이 영구적인 “앵커”로 취급되어 어텐션 캐시를 지배하게 되면 장면이 고정되고 움직임이 사라집니다. 이 정적인 앵커를 학습 가능한 숨겨진 상태로 교체하고 생성된 프레임과 함께 진화하도록 함으로써, 저자들은 스트리밍(청크‑단위) 방식으로 동작하면서도 카메라 움직임을 인식하는 보다 역동적인 비디오 생성 파이프라인을 구현했습니다.

주요 기여

적응형 숨겨진 상태(“AdaState”): 각 비디오 청크와 함께 디노이징되는 움직이는 기준점으로, 고정된 첫 프레임 앵커를 대체합니다.
상대‑시간 공식화: 동일한 위치 구조를 매 생성 단계마다 재사용해 전이 함수를 시간 불변으로 만들고 자연스러운 재귀성을 도입합니다.
캐시‑전용 재귀: 트랜스포머의 KV(키‑값) 캐시가 진화하는 상태를 전달하는 역할을 겸해 외부 재귀 모듈이 필요 없게 합니다.
실험적 검증: 표준 비디오 확산 벤치마크에서 움직임, 카메라 팬, 장면 진화가 현저히 풍부해짐을 보여줍니다.
개념적 연결 고리: 확산 기반 비디오 생성과 고전적인 재귀 모델 사이의 다리를 놓아 스트리밍 생성 시스템을 위한 새로운 설계 공간을 열었습니다.

방법론

기본 아키텍처 – 저자들은 고정 크기 청크로 비디오를 처리하는 전형적인 자동회귀 비디오 확산 모델을 출발점으로 삼습니다. 첫 프레임의 잠재 표현이 트랜스포머 KV 캐시에 저장되고 반복적으로 어텐션 대상이 되어 정적인 장면 앵커 역할을 합니다.
AdaState 도입 – 고정된 첫 프레임 잠재 대신, 학습 가능한 숨겨진 벡터(“상태”)를 매 단계마다 캐시에 삽입합니다. 이 상태는 렌더링되지 않으며, 다음 청크를 위한 맥락 신호로만 사용됩니다.
공동 디노이징 – 각 확산 단계에서 모델은 가시적인 콘텐츠(현재 청크)와 숨겨진 상태를 동시에 디노이징합니다. 상태 업데이트 함수는 가시 프레임에 사용되는 동일한 확산 전이 함수를 사용해 훈련 목표를 통합합니다.
상대 위치 인코딩 – 위치 임베딩을 절대 시간 인덱스가 아니라 현재 청크에 상대적으로 정의합니다. 따라서 이미 생성된 청크 수와 무관하게 동일한 위치 패턴을 보게 되어 상태 전이가 시간 불변이 됩니다.
훈련 및 추론 – 일반적인 확산 손실을 사용해 엔드‑투‑엔드로 훈련하지만, 손실이 숨겨진 상태 업데이트에도 역전파됩니다. 추론 시에는 숨겨진 상태가 KV 캐시 안에 그대로 전달되므로 기존 트랜스포머 캐시 외에 추가 메모리·연산이 필요하지 않습니다.

결과 및 고찰

동작 품질 – 정적 앵커 기반 대비 정량적 지표(FVD, 시간별 LPIPS 등)가 15‑25 % 향상되어 보다 현실적인 움직임 궤적을 보여줍니다.
카메라 동역학 – 시각적 검토에서 부드러운 팬 및 줌이 확인되며, 모델이 초기 시점에 “고정”되지 않음을 확인할 수 있습니다.
시간적 일관성 – 진화하는 앵커에도 불구하고 프레임 간 일관성은 높게 유지되어 적응형 상태가 안정성을 해치지 않음을 증명합니다.
소거 실험 – 상대‑시간 인코딩을 제거하거나 상태를 공동 디노이징 없이 훈련하면 성능이 다시 베이스라인 수준으로 떨어져 두 요소의 중요성을 확인합니다.

실용적 함의

스트리밍 콘텐츠 제작 – 실시간 비디오 생성 도구(예: 가상 아바타, 라이브 스트림 오버레이)를 개발하는 경우 전체 시퀀스를 미리 계산할 필요 없이 더 길고 역동적인 클립을 생성할 수 있습니다.
게임 엔진 및 VR – 재귀 기반 접근 방식은 절차적 콘텐츠 생성을 위해 기존 트랜스포머‑캐시 파이프라인에 자연스럽게 녹아들어 카메라 움직임을 고려한 실시간 장면 진화를 가능하게 합니다.
저지연 파이프라인 – AdaState가 KV 캐시 내부에 존재하므로 추가 모델이나 메모리 오버헤드가 없으며, 지연 시간이 중요한 엣지 디바이스나 클라우드‑GPU 환경에 적합합니다.
하이브리드 생성 시스템 – 상대‑시간·상태 전이 관점은 확산과 고전적인 RNN‑스타일 컨트롤러(예: 사용자 지정 카메라 경로)를 구조적 제약 없이 결합할 수 있는 길을 엽니다.

한계 및 향후 연구

숨겨진 상태 해석 가능성 – 적응형 상태는 블랙박스 잠재 변수이며, 장면의 어떤 요소를 인코딩하는지 파악하는 연구가 필요합니다.
극장기 비디오에 대한 확장성 – 캐시 재귀는 효율적이지만 매우 긴 시퀀스는 여전히 메모리 한계에 부딪힐 수 있어 계층적 캐싱 전략이 탐색될 수 있습니다.
다중모달 조건화 일반화 – 현재는 무조건 생성에 초점을 맞추었으며, 텍스트‑투‑비디오나 오디오‑구동 시나리오로 AdaState를 확장하는 것이 자연스러운 다음 단계입니다.
벤치마크 다양성 – 실험은 몇 개의 표준 확산 데이터셋에 국한되었으므로, 고해상도·도메인 특화 비디오(예: 의료 영상, 자율주행 영상)에서 검증하면 견고성을 더욱 입증할 수 있습니다.

AdaState는 장면 앵커를 학습 가능한, 진화하는 숨겨진 상태로 바꾸는 작은 변화만으로도 스트리밍 비디오 확산 모델에 새로운 수준의 역동성을 제공한다는 점을 보여줍니다. 이는 개발자들에게 더 풍부하고 인터랙티브한 생성 비디오 응용 프로그램을 실현할 실용적인 길을 제시합니다.

저자

Yusuf Dalva
Pinar Yanardag

논문 정보

arXiv ID: 2605.30349v1
분류: cs.CV
발표일: 2026년 5월 28일
PDF: Download PDF

[논문] AdaState: 스트리밍 비디오 생성을 위한 자체 진화형 앵커

개요

주요 기여

방법론

결과 및 고찰

실용적 함의

한계 및 향후 연구

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제