[Paper] VideoAR: 자동회귀 비디오 생성 via 다음 프레임 및 스케일 예측

발행: (2026년 1월 10일 오전 02:34 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.05966v1

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 한국어로 번역해 드리겠습니다.

개요

이 논문은 VideoAR이라는 새로운 autoregressive 프레임워크를 제시한다. 이 프레임워크는 diffusion‑based 모델과 맞먹는 품질의 비디오를 생성하면서 훨씬 더 효율적이다. multi‑scale next‑frame prediction과 visual autoregressive tokenizer를 결합함으로써, 저자들은 high‑fidelity이며 temporally coherent한 비디오 합성을 매우 적은 inference steps로 달성한다.

주요 기여

  • 대규모 시각 자동회귀(VAR) 비디오 모델 최초로 공간 및 시간 의존성을 동시에 처리.
  • 3‑D 다중 스케일 토크나이저는 시공간 정보를 이산 토큰으로 압축하여 빠른 자동회귀 디코딩을 가능하게 함.
  • 시간적 안정성 트릭: 다중 스케일 Temporal RoPE, Cross‑Frame Error Correction, Random Frame Mask 등으로 긴 시퀀스에서 오류 누적을 억제.
  • 다단계 사전학습 파이프라인은 해상도와 지속 시간을 점진적으로 확장하여 공간 및 시간 학습을 정렬.
  • 자동회귀 비디오 생성 분야 최첨단 결과: UCF‑101에서 FVD 88.6 (이전 99.5 대비) 및 VBench 81.74, diffusion 기준보다 10배 이상 적은 추론 단계.

방법론

  1. Tokenization – 3‑D 토크나이저는 비디오를 여러 공간 스케일(예: 8×8, 16×16 패치) 및 시간 스트라이드에서 이산 토큰의 계층으로 슬라이스합니다. 이 압축된 표현은 외관과 움직임을 모두 포착하면서 시퀀스 길이를 관리 가능한 수준으로 유지합니다.

  2. Autoregressive Modeling – 모델은 비디오 생성을 두 가지 문제로 취급합니다:

    • Intra‑frame VAR: 현재 프레임 내에서 다음 토큰을 예측하여 공간 구조를 보존합니다.
    • Causal next‑frame prediction: 다음 프레임에 대한 토큰 집합을 예측하여 시간적 인과성을 보장합니다.
  3. Temporal RoPE & Error Correction – Rotary Positional Embeddings (RoPE)를 스케일 전반에 걸쳐 확장해 상대적인 시간을 인코딩하고, 가벼운 프레임 간 오류 교정 모듈이 이전 예측을 재검토하여 드리프트를 수정합니다.

  4. Training Regimen – 단계적 커리큘럼이 저해상도, 짧은 클립 비디오로 시작해 점차 해상도와 클립 길이를 늘립니다. 무작위 프레임 마스킹은 모델이 강인한 복원을 학습하도록 강제하여 오류 전파를 더욱 감소시킵니다.

  5. Inference – 생성은 프레임을 가로질러 토큰‑별(또는 블록‑별)로 진행되지만, 토큰 어휘가 압축되어 있기 때문에 전체 길이 비디오를 만들기 위해 필요한 디코딩 단계는 소수에 불과합니다.

결과 및 발견

MetricPrior AutoregressiveVideoARDiffusion (large)
FVD (UCF‑101)99.588.6~85
VBench Score73.281.7482–84
Inference Steps~1000≈90~1000+
Compute (GPU‑hrs)1.2×0.8×1.0× (larger model)
  • VideoAR는 확산 모델과의 품질 격차를 메우면서 추론 시간을 한 자릿수 이상 단축합니다.
  • 도입된 시간적 메커니즘은 깜박임과 드리프트를 크게 감소시켜 장거리 움직임을 보다 부드럽게 만듭니다.
  • Ablation 연구를 통해 각 구성 요소(멀티‑스케일 RoPE, 오류 보정, 랜덤 마스크)가 FVD와 VBench 점수에서 측정 가능한 향상을 제공함을 확인했습니다.

실용적 함의

  • 빠른 프로토타이핑 – 개발자는 단일 GPU에서 몇 초 만에 고품질 비디오 샘플을 생성할 수 있어, 콘텐츠 제작, 게임 에셋 파이프라인, 혹은 합성 데이터 생성 등에서 빠른 반복이 가능하다.
  • 확장 가능한 배포 – 토큰 기반 자동회귀 설계는 기존 트랜스포머 서빙 스택(예: ONNX, TensorRT)과 잘 맞아, 메모리 무거운 디퓨전 파이프라인에 비해 프로덕션 서비스에 통합하기가 더 쉽다.
  • 시간적 일관성 – 가상 아바타, 비디오‑투‑비디오 변환, 혹은 비디오 기반 인식 모델을 위한 학습 데이터와 같이 일관된 움직임이 필요한 애플리케이션은 오류 전파가 감소된 이점을 얻는다.
  • 자원 제한 환경 – 추론이 가볍기 때문에 VideoAR은 엣지 디바이스나 클라우드 비용 최적화 인스턴스에서도 실행될 수 있어, AR/VR 혹은 실시간 스트리밍 상황에서 실시간 비디오 합성의 문을 연다.

제한 사항 및 향후 작업

  • 해상도 한계 – 멀티‑스케일 토크나이저가 도움이 되지만, 초고화질(4K+) 비디오를 생성하는 것은 여전히 토큰 예산에 부담을 주며 추가적인 계층적 설계가 필요할 수 있습니다.
  • 장기 의존성 – 시간적 RoPE와 보정이 드리프트를 완화하지만, 매우 긴 클립(>10 seconds)에서는 여전히 미묘한 불일치가 나타날 수 있습니다.
  • 도메인 일반화 – 이 모델은 주로 액션‑무비 스타일 데이터셋(UCF‑101, Kinetics)에서 평가되었습니다. 의료 영상, 과학 시각화와 같은 고도로 특화된 도메인에 적용하려면 도메인‑특화 사전 학습이 필요할 수 있습니다.
  • 향후 방향 – 저자들은 하이브리드 자동회귀‑확산 방식, 더 풍부한 조건화(텍스트, 오디오), 그리고 보다 적극적인 토큰 압축을 탐구하여 품질과 속도를 더욱 향상시킬 것을 제안합니다.

저자

  • Longbin Ji
  • Xiaoxiong Liu
  • Junyuan Shang
  • Shuohuan Wang
  • Yu Sun
  • Hua Wu
  • Haifeng Wang

논문 정보

  • arXiv ID: 2601.05966v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »