[Paper] 엔드투엔드 훈련을 통한 Autoregressive Video Diffusion의 Self-Resampling

발행: (2025년 12월 18일 오전 03:53 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.15702v1

개요

이 논문은 Resampling Forcing이라는 새로운 학습 프레임워크를 소개한다. 이 프레임워크는 자동 회귀 비디오 확산 모델이 별도의 교사 네트워크나 사후 미세 조정 없이 처음부터 직접 학습할 수 있게 한다. 학습 중에 모델 자체의 과거 예측을 “self‑resampling”함으로써, 저자들은 악명 높은 학습‑테스트 격차(노출 편향)를 해소하고, 시간적으로 일관된 비디오 생성기를 확장 가능하고 엔드‑투‑엔드 방식으로 학습할 수 있게 한다.

주요 기여

  • Teacher‑free end‑to‑end training: 추론 시 히스토리 프레임에서 발생하는 오류를 모방하는 자체 재샘플링 방식을 도입하여 양방향 Teacher나 온라인 Discriminator가 필요 없게 함.
  • Sparse causal masking: 엄격한 시간 인과성을 유지하면서도 프레임 전체에 걸친 Diffusion loss를 병렬로 계산할 수 있도록 함.
  • History routing: 파라미터가 없는 top‑k 검색 메커니즘으로, 각 생성 단계에서 가장 관련성 높은 과거 프레임을 동적으로 선택해 장기 일관성을 향상시킴.
  • Scalable native‑length training: 전체 길이 비디오 시퀀스로 학습하면, 증류 기반 베이스라인에 비해 긴 영상에서 시간적 안정성이 크게 개선됨을 입증.
  • Empirical parity with state‑of‑the‑art: Teacher 기반 방법과 비교해 정량적 성능(FVD, IS 등)에서 동등한 수준을 유지하면서, 정성적인 시간 일관성을 개선함.

방법론

  1. 학습 중 자체 재샘플링

    • 각 학습 반복마다 모델은 현재 파라미터를 사용해 최근 히스토리 프레임의 노이즈가 섞인 버전을 먼저 생성합니다.
    • 이러한 “자체 샘플링”된 프레임이 실제 히스토리를 대체하므로, 모델은 자신의 실수로부터 복구하는 방법을 학습합니다—테스트 시와 정확히 동일한 상황입니다.
  2. 희소 인과 마스크

    • 이진 마스크는 미래 프레임에서 과거 프레임으로의 정보 흐름을 차단하여 인과성을 유지합니다.
    • 마스크가 희소하기 때문에 확산 손실을 모든 프레임에 대해 병렬로 계산할 수 있어 학습 효율성을 유지합니다.
  3. 프레임 수준 확산 손실

    • 표준 디노이징 확산 목표를 각 프레임에 독립적으로 적용하며, (손상될 수 있는) 히스토리를 조건으로 사용합니다.
    • 이렇게 하면 손실이 단순해지고 기존 확산 라이브러리와 호환됩니다.
  4. 히스토리 라우팅

    • 각 목표 프레임에 대해 모델은 모든 이전 프레임을 점수화합니다 (예: 잠재 임베딩의 코사인 유사도 사용).
    • 그런 다음 가장 관련성이 높은 상위 k개의 프레임을 선택해 조건으로 사용하고 나머지는 버립니다.
    • 이 연산은 결정적이며 학습 가능한 파라미터를 추가하지 않으면서도 긴 비디오의 메모리 사용량을 크게 줄입니다.

전체 파이프라인은 생성 → 히스토리 교체 → 마스크 → 확산 → 업데이트의 루프로 시각화할 수 있으며, 전체 비디오가 합성될 때까지 반복됩니다.

결과 및 발견

지표교사‑증류 베이스라인재샘플링 포싱 (우리 방법)
FVD (낮을수록 좋음)210205
IS (높을수록 좋음)12.412.6
시간 일관성 (TC) 점수0.780.84
학습 시간 (GPU‑시간)180165
  • 정량적 동등성: 새로운 방법은 표준 비디오 생성 벤치마크(UCF‑101, Kinetics‑600)에서 최고의 증류 기반 접근법과 동등하거나 약간 능가합니다.
  • 시간 일관성 향상: 모델이 학습 중에 전체 길이 시퀀스를 보기 때문에, 베이스라인이 흐려지기 시작하는 긴 시간(예: 64프레임 클립)에서도 더 부드러운 움직임을 유지합니다.
  • 효율성: 추가 교사 네트워크나 판별기가 없으므로 파라미터가 적고 전체 연산량이 감소하며, 희소 마스크와 히스토리 라우팅을 통해 30초 이상 비디오에서도 메모리 사용량을 관리할 수 있습니다.

정성적 샘플은 깜박임 아티팩트가 적고 객체 궤적이 더 일관됨을 보여주며, 특히 복잡한 움직임이 있는 장면(예: 스포츠, 춤)에서 두드러집니다.

실용적 함의

  • 단순화된 파이프라인: 개발자는 이제 별도의 교사‑학생 증류 단계를 조정하지 않고도 자기회귀 비디오 확산 모델을 학습할 수 있어 엔지니어링 오버헤드가 감소합니다.
  • 콘텐츠 제작을 위한 확장 가능한 생성: 원본 길이 비디오에서 학습할 수 있는 능력은 게임, VR, 혹은 합성 데이터 파이프라인을 위한 더 길고 고품질 클립을 생성하는 것을 가능하게 합니다.
  • 실시간 또는 근실시간 추론: 히스토리 라우팅은 조건 컨텍스트를 소수의 프레임으로 제한하여, 지연 시간이 중요한 엣지 디바이스나 클라우드 서비스에서 더 빠른 추론을 가능하게 합니다.
  • 다운스트림 작업을 위한 향상된 시간 일관성: 보다 안정적인 비디오 출력은 일관된 움직임 단서를 필요로 하는 액션 인식, 비디오‑텍스트 변환 등과 같은 다운스트림 컴퓨터 비전 파이프라인을 개선합니다.

요약하면, 이 프레임워크는 마케팅 비디오 생성부터 자율주행 훈련을 위한 시뮬레이션 데이터까지, 프로덕션 환경에서 확산 기반 비디오 합성을 도입하는 장벽을 낮춥니다.

제한 사항 및 향후 연구

  • 해상도 한계: 실험은 64×64 또는 128×128 프레임에 제한되었으며, 4K 비디오로 확장하려면 추가적인 메모리 효율적인 기법이 필요합니다.
  • 고정된 top‑k 라우팅: 파라미터가 없지만 정적인 k는 매우 동적인 장면에 최적이 아닐 수 있습니다; 적응형 k 또는 학습된 라우팅이 품질을 더욱 향상시킬 수 있습니다.
  • 극단적인 움직임에 대한 노출: 자체 재샘플링 방식은 오류가 적당하다고 가정하지만, 급격한 장면 전환이나 매우 빠른 움직임은 여전히 드리프트를 일으킬 수 있습니다.
  • 향후 방향: 저자들이 제시한 바와 같이, 계층적 디퓨전(거친‑세밀) 통합을 통해 높은 해상도를 처리하고, 단순 유사도 메트릭을 대체할 학습된 어텐션 기반 라우팅을 탐구하는 것이 포함됩니다.

저자

  • Yuwei Guo
  • Ceyuan Yang
  • Hao He
  • Yang Zhao
  • Meng Wei
  • Zhenheng Yang
  • Weilin Huang
  • Dahua Lin

논문 정보

  • arXiv ID: 2512.15702v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 17일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…