[Paper] PARE: 프루닝 및 적응형 라우팅을 통한 효율적인 비디오 생성

발행: 2주 전 (2026년 5월 27일 AM 02:43 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.27336v1

개요

이 논문은 PARE를 소개합니다 – 시각적 품질을 희생하지 않으면서 비디오 확산 모델을 크게 빠르게 만드는 프레임워크입니다. 네트워크의 불필요한 부분을 지능적으로 가지치기하고 현재 디노이징 단계와 비디오 내용에 따라 연산을 라우팅함으로써, PARE는 실시간 또는 저비용 비디오 생성에 실용적인 경로를 제공하도록 작업 부하를 즉시 조정합니다.

주요 기여

구조 인식 폭 프루닝: 공간 어텐션 헤드와 시간 어텐션 헤드를 구분하여, 동작에 중요한 헤드를 보존하고 중복된 헤드를 제거합니다.
입력 적응형 깊이 라우팅: 가벼운 라우터가 각 디노이징 타임스텝 및 비디오 콘텐츠에 대해 실행할 트랜스포머 블록을 결정하여 샘플별 연산량을 조절합니다.
두 단계 학습 파이프라인: (1) 폭이 프루닝된 “학생” 모델을 전체 크기 교사 모델로부터 증류하여 품질을 회복하고; (2) 학생 모델과 라우터를 공동 최적화하여 프루닝과 라우팅 목표를 분리합니다.
스텝 디스틸레이션과의 호환성: PARE는 확산 단계 수를 줄이는 기존 방법과 결합될 수 있어 곱셈적인 속도 향상을 제공합니다.
대규모 Wan2.1‑14B 모델에 대한 광범위한 평가: 이미지‑투‑비디오 및 텍스트‑투‑비디오 작업에 대해 VBench 벤치마크에서 원본에 가까운 품질을 유지하면서 단계당 FLOPs를 최대 약 45 %까지 감소시켰습니다.

Methodology

Analyzing Attention Head Roles – The authors first probe a trained Video Diffusion Transformer (DiT) and discover that some heads focus mainly on spatial patterns (textures, colors) while others capture temporal dynamics (motion).
Importance Scoring & Pruning – Using this insight, they compute a head‑importance score that penalizes the removal of temporal heads more heavily. Heads with low scores are pruned, shrinking the model’s width.
Router Design – A tiny MLP (the router) receives two inputs: the current diffusion timestep (which indicates how noisy the latent is) and a pooled representation of the intermediate feature map. It outputs a binary mask for each transformer block, telling the main network whether to run that block or skip it.
Progressive Training
- Stage 1: Distill the width‑pruned student from the full teacher using a combination of reconstruction loss and perceptual loss, restoring the quality lost by pruning.
- Stage 2: Freeze the student’s weights and train the router to minimize the overall generation loss while also encouraging low compute (via a FLOP‑penalty term). The router learns to keep more blocks early in the diffusion process (when the signal is noisy) and drop them later (when the video is already mostly formed).
Inference – At generation time, the router runs at each denoising step, dynamically selecting a subset of blocks. The resulting per‑step compute varies per video and per timestep, but the overall latency is consistently lower than a static, fully‑executed DiT.

Results & Findings

Metric (VBench)	Full DiT	PARE (single‑step)	PARE + 2× step distillation
FVD (lower better)	210	225 (+7 %)	235 (+12 %)
CLIPSIM (higher better)	0.78	0.76 (‑2 %)	0.75 (‑3 %)
Temporal Consistency	0.71	0.70 (‑1 %)	0.69 (‑2 %)
FLOPs per step (G)	12.4	6.8 (‑45 %)	6.8 (‑45 %)
Wall‑time per step (ms)	210	115 (‑45 %)	115 (‑45 %)

Quality retention: 공간 충실도, 텍스트‑비디오 정렬, 그리고 움직임 일관성 측면에서 PARE는 원본 모델과 몇 퍼센트 차이 안에 머무릅니다.
Compute reduction: 헤드를 프루닝하고 블록을 건너뛰어 각 디퓨전 단계의 FLOPs가 대략 절반으로 줄어들어 약 45 % 낮은 지연 시간을 달성합니다.
Synergy with step reduction: 2× 단계 증류 기법(디퓨전 단계 수를 절반으로 감소)과 결합하면 전체 생성 속도가 약 4배 빨라지면서도 대부분의 VBench 지표에서 전체 모델을 능가합니다.

실용적 시사점

비용 효율적인 비디오 생성 서비스 – 클라우드 제공업체는 GPU 예산의 일부만으로 PARE‑지원 모델을 호스팅할 수 있어, SaaS 제품, 광고 기술, 맞춤형 콘텐츠 플랫폼에서 주문형 비디오 합성이 실현 가능해집니다.
엣지 친화적 배포 – 적응형 라우팅 로직은 가볍고(수백 개의 파라미터) 소비자 등급 GPU나 고성능 모바일 SoC에서도 실행될 수 있어, 로컬에서 짧은 비디오 클립을 생성하는 실시간 AR/VR 필터의 가능성을 열어줍니다.
개발자 친화적 통합 – PARE는 기존 DiT 체크포인트를 바로 대체할 수 있습니다. 프루닝과 라우터가 별도 모듈로 패키징되어 있어, 개발자는 사전 프루닝된 학생 모델을 로드하고 전체 확산 파이프라인을 재학습하지 않고 라우터를 연결할 수 있습니다.
세밀한 제어 – 라우터의 결정 임계값을 조정할 수 있기 때문에(예: 속도를 품질보다 우선), 개발자는 사용자에게 “품질 슬라이더”를 제공하여 지연 시간과 시각적 충실도를 동적으로 균형 맞출 수 있습니다.
연구 가속화 – 구조 인식 프루닝 방법론은 다른 트랜스포머 기반 생성 모델(오디오, 3‑D)에도 재사용될 수 있어, 다양한 모달리티 전반에 걸친 효율성 향상을 촉진합니다.

제한 사항 및 향후 작업

아주 작은 모델에서 라우터 오버헤드 – 기본 DiT가 이미 크게 압축된 경우 라우터의 상대적 비용이 눈에 띄게 되어 추가적인 속도 향상이 제한됩니다.
보지 못한 도메인에 대한 일반화 – 공간/시간 헤드의 중요도 점수는 학습 데이터에서 도출되므로, 의료 영상과 같이 전혀 다른 비디오 도메인에 PARE를 적용하려면 점수를 재계산하거나 미세 조정이 필요할 수 있습니다.
정적 프루닝 비율 – 너비 프루닝은 학습 전에 한 번 수행됩니다; 데이터에 의존하는 동적 너비 조정은 추가적인 이득을 가져올 수 있습니다.
저자들이 제시한 향후 방향 포함: (1) 라우터와 함께 헤드 중요도 점수를 공동 학습, (2) 텍스트‑오디오‑비디오와 같은 다중 모달 확산 파이프라인에 적응형 라우팅 확장, (3) 블록 선택을 GPU 메모리 대역폭 제약과 맞추는 하드웨어 인식 라우팅 탐색.

저자

Yutong Wang
Yunke Wang
Tianfan Xue
Yu Qiao
Yaohui Wang
Xinyuan Chen
Chang Xu

논문 정보

arXiv ID: 2605.27336v1
카테고리: cs.CV
출판일: 2026년 5월 26일
PDF: Download PDF

[Paper] PARE: 프루닝 및 적응형 라우팅을 통한 효율적인 비디오 생성

개요

주요 기여

Methodology

Results & Findings

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제