[Paper] GriDiT: 효율적인 긴 이미지 시퀀스 생성을 위한 Factorized Grid-Based Diffusion

발행: (2025년 12월 25일 오전 01:46 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.21276v1

위에 표시된 소스 링크 외에 번역하고자 하는 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다.

Overview

The paper introduces GriDiT, a novel diffusion‑based framework that treats long image sequences as a factorized grid rather than a monolithic 3‑D tensor. By first generating a low‑resolution “coarse” video grid and then super‑resolving each frame independently, the authors achieve higher visual quality, better temporal coherence, and up to 2× faster inference compared with existing video‑diffusion models.

주요 기여

  • Grid‑based factorization: 비디오 생성을 2‑D 이미지 확산 문제로 재구성하여 공간‑시간 그리드에서 맞춤형 3‑D 아키텍처가 필요 없게 함.
  • Two‑stage pipeline:
    1. Coarse‑grid diffusion: Diffusion Transformer (DiT)를 사용해 프레임 간 관계를 포착.
    2. Frame‑wise super‑resolution: 시간 일관성을 해치지 않으면서 고주파 디테일을 주입.
  • Data‑efficient training: 하위 샘플링된 프레임 그리드로 학습하여 필요한 비디오 데이터 양을 감소시키면서도 임의 길이 시퀀스를 처리.
  • Broad domain generalization: 추가 사전 지식이나 감독 없이 다양한 데이터셋(예: 인간 동작, 자연 장면)에서 바로 사용 가능.
  • Empirical superiority: FVD, IS, 사용자 연구 평점 측면에서 여러 벤치마크에서 새로운 최첨단(SoTA)을 달성하고, 생성 지연 시간을 절반으로 감소.

Methodology

  1. Grid ConstructionT 프레임으로 구성된 비디오는 시간 및 공간 모두에서 다운샘플링되어 (H′ × W′ × T′) 형태의 저해상도 그리드가 생성됩니다. 그리드의 각 셀은 서브샘플된 프레임을 나타내는 작은 이미지 패치입니다.
  2. Diffusion Transformer (DiT) Backbone – 2‑D 이미지 디퓨전에 사용되는 동일한 DiT 아키텍처를 그리드에 직접 적용합니다. 셀프‑어텐션은 평탄화된 그리드 토큰 전체에 걸쳐 작동하여, 명시적인 3‑D 컨볼루션 없이도 모델이 시간적 의존성을 학습할 수 있게 합니다.
  3. Coarse Generation – 디퓨전 과정은 무작위 그리드를 현실적인 저해상도 비디오로 디노이징합니다. 그리드가 작기 때문에 디퓨전 단계가 비용 효율적이며, 모델을 비교적 적은 GPU 메모리로 학습시킬 수 있습니다.
  4. Frame‑wise Super‑Resolution – 생성된 저해상도 프레임 각각을 전용 초해상도 디퓨전 모델(또는 결정론적 업샘플러)에 입력합니다. 프레임을 독립적으로 처리하므로, 거친 단계에서 이미 확보된 시간적 일관성을 해치지 않으면서 고주파 텍스처를 추가할 수 있습니다.
  5. Arbitrary Length Extension – 그리드를 패딩하거나 잘라내어, 학습 시 본 것보다 긴 비디오를 생성할 수 있습니다. DiT의 어텐션 메커니즘은 새로운 시간 차원에 자연스럽게 확장됩니다.

Results & Findings

데이터셋측정 지표 (낮을수록 좋음)GriDiT이전 최고 성능 (예: Video Diffusion, Make‑It‑3D)
Kinetics‑600FVD68112
UCF‑101IS (높을수록 좋음)9.47.8
Human3.6M포즈 일관성 (°)2.13.7
추론 지연 시간 (16프레임 클립당)0.21 s (≈2× faster)0.42 s
  • 시각적 품질: 샘플은 더 선명한 가장자리, 더 현실적인 모션 블러, 그리고 깜박임 아티팩트가 적습니다.
  • 시간적 일관성: 어텐션 기반 거친 단계가 모션 궤적을 보존하며, 프레임‑별 업샘플러가 이를 방해하지 않습니다.
  • 확장성: 최대 128프레임 시퀀스까지 실험한 결과, 안정적인 생성 품질을 보여 방법이 긴 비디오를 처리할 수 있음을 확인했습니다.

실용적 함의

  • 비디오 중심 제품에 대한 빠른 프로토타이핑 – 개발자는 합성 비디오 데이터 파이프라인(예: 자율 주행 인식 모델 학습)에 GriDiT을 통합하여 컴퓨팅 비용을 절반으로 줄일 수 있습니다.
  • 콘텐츠 제작 도구 – 2단계 설계는 기존 이미지‑투‑이미지 업스케일러와 잘 맞아 비디오 편집기, 게임 에셋 파이프라인, AR/VR 콘텐츠 생성기를 위한 플러그‑인 확장을 손쉽게 구현할 수 있습니다.
  • 저자원 환경 – 거친 디퓨전이 아주 작은 그리드에서 작동하므로 학습 및 추론을 단일 고성능 GPU에서 실행할 수 있어 디바이스 또는 엣지 기반 생성이 가능해집니다.
  • 도메인에 구애받지 않는 생성 – 특수한 움직임 사전이나 포즈 주석이 필요 없으며, 동일한 모델을 의료 영상 시퀀스, 위성 타임랩스, 애니메이션 UI 목업 등에 맞게 미세 조정할 수 있습니다.

제한 사항 및 향후 작업

  • 초해상도 독립성 – 프레임별 업샘플링은 시간 일관성을 유지하지만, 움직임을 인식한 고주파 디테일(예: 프레임마다 달라지는 모션 블러)을 주입할 수 없습니다.
  • 해상도 트레이드오프 – 거친 그리드의 공간 해상도가 캡처할 수 있는 가장 미세한 움직임을 제한합니다; 매우 빠른 움직임은 여전히 흐릿하게 보일 수 있습니다.
  • 학습 데이터 편향 – 프레임 레이트가 매우 불규칙하거나 종횡비가 극단적인 데이터셋은 추가 전처리가 필요합니다.
  • 제안된 향후 방향 포함:
    1. 움직임에 의존하는 텍스처를 모델링하기 위한 공동 시공간 초해상도.
    2. 복잡한 장면에 더 많은 토큰을 동적으로 할당하는 적응형 그리드 크기 조정.
    3. 조건부 제어(텍스트, 오디오)와의 통합을 통한 가이드 비디오 합성.

저자

  • Snehal Singh Tomar
  • Alexandros Graikos
  • Arjun Krishna
  • Dimitris Samaras
  • Klaus Mueller

논문 정보

  • arXiv ID: 2512.21276v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »