[Paper] HiAR: 효율적인 Autoregressive Long Video Generation via Hierarchical Denoising

발행: 16시간 전 (2026년 3월 10일 AM 02:58 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2603.08703v1

Overview

논문 HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising은 비디오 합성 분야에서 오랫동안 해결되지 않았던 문제, 즉 자동 회귀(diffusion) 모델에서 흔히 발생하는 품질 붕괴 없이 일관된 움직임과 높은 시각적 품질을 유지하면서 임의의 길이의 비디오를 생성하는 방법을 다룹니다. 저자들은 컨텍스트 프레임을 언제, 어떻게 디노이징할지를 재고함으로써, 추론 속도를 높이고 시간적 드리프트를 크게 감소시키는 계층적 디노이징 방식을 제안합니다.

주요 기여

동일‑노이즈‑레벨 조건화: 현재 블록과 동일한 확산 노이즈 레벨의 컨텍스트 프레임에 조건화하는 것만으로도 시간적 일관성을 확보할 수 있어, 오류를 전파하는 완전‑디노이즈(높은‑불확실성) 컨텍스트가 필요하지 않다.
계층적 자동회귀 (HiAR) 프레임워크: 고전적인 생성 순서를 뒤집는다—다음 블록으로 이동하기 전에 하나의 블록을 완성하는 대신, HiAR은 각 확산 단계에서 모든 블록을 병렬로 디노이즈하여 각 블록의 컨텍스트를 동일한 노이즈 레벨에 유지한다.
파이프라인 병렬 추론: 계층적 설계는 자연스럽게 파이프라인 실행을 가능하게 하며, 4‑단계 확산 스케줄에서 약 1.8× 실시간 속도 향상을 제공한다.
운동 다양성을 위한 Forward‑KL 정규화: 역‑KL(모드‑탐색) 목표에 의해 유도되는 저‑운동 단축을 상쇄하는 양방향‑어텐션 Forward‑KL 항을 도입한다. 이는 자체 롤아웃 증류 과정에서 사용된다.
VBench에서 최첨단 결과: 20‑초 비디오 생성에 대해 가장 높은 전체 VBench 점수를 달성했으며, 모든 베이스라인 중 가장 낮은 시간적 드리프트를 기록했다.

방법론

Autoregressive diffusion recap – 전통적인 AR diffusion은 비디오를 블록 단위로 생성하며, 항상 완전히 디노이즈된 이전 블록에 조건을 둡니다. 이 높은 불확실성 컨텍스트는 모델이 과거 예측에 과도하게 자신감을 갖게 하여, 작은 실수도 빠르게 눈덩이처럼 커집니다.
Key insight – same‑noise‑level context – 양방향 diffusion(전방 및 후방 패스가 동일한 노이즈 레벨을 공유함)에서 영감을 받아, 저자들은 노이즈가 섞인 컨텍스트가 연속성을 위한 충분한 신호를 제공하면서도 불확실성을 높게 유지해 오류 누적을 자연스럽게 완화한다고 주장합니다.
Hierarchical denoising schedule – 비디오는 여러 시간 블록(예: 4초 청크)으로 나뉩니다. 각 diffusion 단계 (t) (높은 노이즈에서 낮은 노이즈로)에서 모든 블록이 한 단계씩 동시에 디노이즈됩니다. 따라서 각 블록은 이웃 컨텍스트를 동일한 노이즈 레벨 (t)에서 확인합니다.
Parallel pipeline – 각 디노이즈 단계가 모든 블록에서 수행되므로, 연산을 GPU나 CPU 코어에 파이프라인화할 수 있습니다: 블록 1이 단계 (t)에서 처리되는 동안 블록 2는 이미 단계 (t-1)을 시작할 수 있습니다. 이 방식은 품질을 손상시키지 않으면서 보고된 1.8× 속도 향상을 제공합니다.
Self‑rollout distillation + forward‑KL regularizer – 장거리 일관성을 더욱 향상시키기 위해 모델을 자체 롤아웃(teacher‑student 학습)에서 증류합니다. reverse‑KL 손실만 사용할 경우 모델이 “안전하게” 움직임이 적은 비디오를 생성하도록 유도합니다. 양방향 어텐션 마스크와 함께 계산되는 forward‑KL 항을 추가하면 다양한 움직임 패턴을 명시적으로 보상하여 두 목표 사이의 균형을 맞춥니다.
Training details – 저자들은 표준 비디오 diffusion 데이터셋으로 학습하고, 4단계 디노이징 스케줄(일반적인 100단계 diffusion보다 훨씬 짧음)을 사용하며, 제어 가능성을 위해 classifier‑free guidance를 채택합니다.

결과 및 발견

지표 (VBench, 20 s)	HiAR (4‑step)	Prior AR Diffusion	Other SOTA
전체 점수	0.78 (best)	0.71	0.73‑0.75
시간적 드리프트 (낮을수록 좋음)	0.12 (lowest)	0.21	0.18‑0.20
추론 시간 (실제 시간)	1.8× faster than baseline 4‑step AR	–	–

시간적 일관성: 동일한 노이즈 레벨 조건화가 가장 강력한 베이스라인에 비해 드리프트를 약 40 % 감소시킵니다.
속도: 단 4개의 디퓨전 단계만으로 HiAR는 20초 클립에 대해 거의 실시간 생성에 도달하며, 디퓨전 비디오 모델에서 일반적인 50‑100 단계에 비해 크게 개선되었습니다.
동작 다양성: forward‑KL 정규화자를 제거하면 동작 변동성이 눈에 띄게 감소하고(모델이 정적인 프레임으로 붕괴), 이는 동적을 보존하는 역할을 확인시켜 줍니다.

Practical Implications

Long‑form video generation for content creators: 개발자는 이제 훨씬 적은 diffusion 단계만으로도 일관된 움직임을 가진 수분 길이의 클립을 생성할 수 있어, 온‑디바이스 또는 클라우드 기반 서비스가 보다 실현 가능해집니다.
Real‑time video augmentation: 파이프라인화된 추론 설계는 지연 시간이 중요한 스트리밍 파이프라인(예: AR/VR 오버레이, 실시간 방송 그래픽)과 잘 맞습니다.
Game asset synthesis: 게임 스튜디오는 HiAR를 활용해 절차적 컷신이나 배경 루프를 생성할 수 있으며, 긴 시간 동안의 드리프트를 걱정할 필요가 없습니다.
Efficient fine‑tuning: 모델이 짧은 diffusion 스케줄로 동작하기 때문에, 도메인 특화 비디오 데이터(예: 의료 영상, 산업 검사)에 대한 파인튜닝이 계산 비용 면에서 더 저렴해집니다.
API design: 계층적 블록 인터페이스는 청크된 비디오 API에 자연스럽게 매핑되어, 개발자가 “다음 N초”를 요청하면 백엔드에서는 이전 청크를 병렬로 디노이징하는 식으로 동작할 수 있습니다.

제한 사항 및 향후 작업

고정 블록 세분성: 현재 계층 구조는 균일한 블록 크기를 가정하고 있으며, 장면 전환을 처리하기 위해 블록 길이를 실시간으로 조정하는 것은 아직 해결되지 않은 과제입니다.
네 단계 일정 트레이드‑오프: 4단계는 빠르지만, 매우 고해상도이거나 고프레임 레이트 비디오의 경우 여전히 더 많은 단계가 유리할 수 있습니다; 계층적 접근 방식을 더 긴 일정에 확장하는 연구가 필요합니다.
Forward‑KL 계산 비용: Forward‑KL 정규화에 필요한 양방향 어텐션은 메모리 오버헤드를 증가시켜, 엣지 디바이스에서 제한 요인이 될 수 있습니다.
다중모달 조건화에 대한 일반화: 본 논문은 무조건 생성에 초점을 맞추고 있으며, HiAR를 텍스트‑투‑비디오 또는 오디오‑구동 생성으로 확장하는 것이 자연스러운 다음 단계입니다.

저자

Kai Zou
Dian Zheng
Hongbo Liu
Tiankai Hang
Bin Liu
Nenghai Yu

논문 정보

arXiv ID: 2603.08703v1
분류: cs.CV
출판일: 2026년 3월 9일
PDF: Download PDF

[Paper] HiAR: 효율적인 Autoregressive Long Video Generation via Hierarchical Denoising

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] 스케일 스페이스 확산

[Paper] Talking Together: 오디오에서 Co-Located 3D 대화 합성

[Paper] ImprovedGS+: 고성능 C++/CUDA 재구현 전략 for 3D Gaussian Splatting

[Paper] Retrieval-Augmented Gaussian Avatars: 표현 일반화 개선