[Paper] Context Forcing: 긴 컨텍스트를 활용한 일관된 Autoregressive 비디오 생성

발행: (2026년 2월 6일 오전 03:58 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.06028v1

Overview

이 논문은 Context Forcing이라는 훈련 프레임워크를 소개합니다. 이 프레임워크는 자동회귀 비디오 생성기가 이전보다 훨씬 긴 기간 동안 일관된 스토리를 유지하도록 합니다. 전체 생성 히스토리를 볼 수 있는 교사 모델과 함께 “학생” 모델을 학습시킴으로써, 저자들은 컨텍스트 길이가 몇 초에 불과하도록 제한하던 오래된 불일치를 제거합니다. 그 결과, 비디오 합성이 20초 – 2 분까지 일관성을 유지하며, 기존 실시간 생성기를 크게 능가합니다.

주요 기여

  • Long‑context teacher–student paradigm: 기존의 짧은 윈도우 교사를 전체 비디오 히스토리에 접근할 수 있는 교사로 교체하여 학생‑교사 감독 격차를 없앰.
  • Context Forcing loss: 교사가 전체 과거 컨텍스트에 조건화된 상태에서 학생이 교사의 예측에 맞추도록 강제하는 새로운 목표 함수.
  • Slow‑Fast Memory architecture: 중복된 시각 정보를 압축하는 컨텍스트 관리 시스템으로, 선형적으로 증가하는 컨텍스트를 확장 가능한 “slow‑fast” 메모리 뱅크로 전환.
  • Empirical breakthroughs: >20 초(실험에서는 최대 2 분)까지 일관된 생성이 가능함을 입증했으며, 이는 LongLive와 Infinite‑RoPE와 같은 기존 최첨단 방법보다 2–10배 더 긴 시간이다.
  • Comprehensive evaluation: 여러 장기 비디오 메트릭(시간적 일관성, 움직임 부드러움, 의미적 드리프트)을 도입·보고하여 베이스라인 대비 명확한 향상을 보여줌.

방법론

  1. 교사‑학생 설정

    • 학생: 실시간 생성에 배치될 자기회귀 비디오 모델.
    • 교사: 동일한 아키텍처의 복제본이지만 오프라인으로 실행되며 전체 생성 시퀀스(전체 “히스토리”)에 접근할 수 있음.
  2. 컨텍스트 강제 학습

    • 각 시간 단계에서 교사는 전체 과거 컨텍스트를 사용해 다음 프레임을 예측한다.
    • 학생은 사용 가능한 컨텍스트만을 사용해 동일한 프레임을 예측한다(생성이 진행됨에 따라 컨텍스트가 증가한다).
    • 강제 손실(예: KL 발산)은 학생의 분포를 교사의 분포와 정렬시켜, 학생이 장거리 종속성을 이미 알고 있는 모델을 모방하도록 학습한다.
  3. 슬로우‑패스트 메모리

    • 패스트 메모리는 세밀한 디테일을 위해 최근 프레임을 전체 해상도로 저장한다.
    • 슬로우 메모리는 오래된 프레임을 압축된 표현(예: 다운샘플링된 특징, 키프레임 임베딩)으로 집계한다.
    • 컨텍스트 길이가 임계값을 초과하면, 오래된 패스트 엔트리를 슬로우 메모리로 이동시켜 전체 메모리 사용량을 대략 일정하게 유지하면서 핵심적인 시간적 단서를 보존한다.
  4. 학습 파이프라인

    • 비디오는 효율적인 GPU 사용을 위해 짧은 클립으로 분할된다.
    • 교사는 전체 클립(또는 스트리밍 방식의 전체 비디오)에서 실행되는 반면, 학생은 이를 점진적으로 처리한다.
    • 그래디언트는 학생을 통해서만 역전파되며, 교사의 파라미터는 초기 워밍업 이후 고정된다.

Source:

Results & Findings

MetricContext ForcingLongLiveInfinite‑RoPE
Temporal Consistency (↑)0.840.620.58
Motion Smoothness (↓)0.120.270.31
Semantic Drift (↓)0.090.210.24
Max usable context (s)>20 (up to 120)~5‑10~5‑8
  • 더 긴 컨텍스트는 직접적으로 동작을 더 부드럽게 만들고 급격한 장면 전환을 줄여줍니다.
  • 정성적 예시에서는 모델이 수십 초 동안 객체 정체성, 조명 조건, 그리고 서사 흐름을 유지하는 모습을 보여주며, 이전 모델들은 몇 초만 지나면 이러한 정보를 잃어버립니다.
  • 소거 실험(ablation studies) 결과, 교사의 전체 히스토리 접근과 Slow‑Fast 메모리 둘 다 필수적이며, 어느 하나라도 제거하면 성능이 거의 기본 수준으로 떨어지는 것을 확인했습니다.

Practical Implications

  • 실시간 콘텐츠 제작: 게임 엔진, 가상 프로덕션, 혹은 라이브 스트림 오버레이가 이제 사전 렌더링 없이도 장기간 일관된 배경 애니메이션을 생성할 수 있습니다.
  • 확장된 AR/VR 경험: 사용자는 AI가 생성한 환경과 상호작용하며, 몇 분 동안 자연스럽게 진화하여 몰입감을 향상시킵니다.
  • 데이터 효율적인 비디오 합성: Slow‑Fast 메모리는 GPU 메모리 사용량을 감소시켜, 소비자 등급 하드웨어(예: RTX 30‑시리즈)에서도 더 긴 클립을 실행할 수 있게 합니다.
  • 향상된 비디오‑투‑비디오 변환: 소스 비디오(예: 스타일 전송)를 적용할 때, 더 긴 컨텍스트가 장면 연속성을 유지하도록 도와 플리커 현상을 줄입니다.
  • 기반 모델 파인튜닝: 교사‑학생 패러다임을 다른 순차 생성 작업(오디오, 텍스트)에도 재활용할 수 있으며, 장거리 일관성이 중요한 경우에 유용합니다.

제한 사항 및 향후 작업

  • 학습 비용: 학생 모델과 함께 전체 컨텍스트 교사를 실행하는 것은 특히 수분 길이의 비디오에서는 여전히 상당한 GPU 시간이 필요합니다.
  • 메모리 압축 트레이드오프: Slow‑Fast 방식은 미묘한 장기 단서를 버릴 수 있습니다; 향후 작업에서는 학습 가능한 압축이나 계층적 어텐션을 탐구할 수 있습니다.
  • 도메인 일반화: 실험은 비교적 통제된 데이터셋(예: 인간 동작, 합성 장면)에 초점을 맞추었습니다. 매우 동적인 야외 영상으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 인터랙티브 제어: 현재 설정은 무조건 생성(unconditional generation)을 전제로 합니다; 사용자‑주도 제약(예: 키프레임 편집) 통합은 유망한 방향입니다.

Context Forcing은 자동 회귀 비디오 생성의 경계를 “짧은 폭발”에서 진정한 장기 합성으로 확장시켜, 인터랙티브 미디어, 실시간 시각 효과, AI 기반 콘텐츠 파이프라인을 구축하는 개발자들에게 새로운 가능성을 열어줍니다.

저자

  • Shuo Chen
  • Cong Wei
  • Sun Sun
  • Ping Nie
  • Kai Zhou
  • Ge Zhang
  • Ming-Hsuan Yang
  • Wenhu Chen

논문 정보

  • arXiv ID: 2602.06028v1
  • 카테고리: cs.CV
  • 발행일: 2026년 2월 5일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.