[Paper] 통신 효율적인 서비스 제공을 위한 비디오 디퓨전 모델의 잠재적 병렬성
Source: arXiv - 2512.07350v1
Overview
Video diffusion models (VDMs)은 고품질 비디오 생성의 표준 접근법이 되었지만, 3‑D 어텐션 커널은 메모리 사용량을 급격히 증가시킵니다—프레임 크기와 길이에 따라 입방형으로 증가합니다. 이러한 모델을 대규모로 서비스하려면 엔지니어가 작업을 여러 GPU에 분산시켜야 하는데, 기존 병렬화 기법은 네트워크 대역폭을 압박하는 대규모 활성화 셔플을 강요합니다. 논문에서는 **Latent Parallelism (LP)**이라는 통신량을 최소화하는 전략을 소개합니다. 이는 잠재 비디오 표현을 시간에 따라 서로 다른 축으로 슬라이스하여 GPU 간 트래픽을 크게 줄이면서 시각 품질을 유지합니다.
Key Contributions
- Latent Parallelism (LP): diffusion 단계마다 잠재 공간의 파티션 차원(시간, 높이, 너비)을 동적으로 회전시키는 새로운 병렬화 스킴.
- Patch‑aligned overlapping partitions: 파티션을 시각 패치와 정렬하고 겹치게 하여 이음새 아티팩트를 방지.
- Position‑aware latent reconstruction: 서브 잠재 사이의 경계를 부드럽게 하는 경량 스티칭 모듈.
- Plug‑in compatibility: LP는 기존 데이터‑ 또는 파이프라인‑병렬 프레임워크 위에 레이어링될 수 있어 코드베이스를 재작성할 필요가 없음.
- Empirical validation: 세 가지 비디오 생성 벤치마크에서 LP는 표준 병렬화 대비 통신 오버헤드를 최대 97 % 감소시키면서, FVD, IS, 인간 선호도 측면에서 거의 영향을 주지 않음.
Methodology
- Latent‑space decomposition – 전체 해상도 비디오 텐서를 분할하는 대신, 저자들은 VDM 인코더가 만든 훨씬 작은 잠재 표현을 대상으로 작업합니다.
- Dynamic axis rotation – 각 diffusion 타임스텝마다 파티션 축이 순환합니다(예: 타임스텝 1 → 시간 슬라이스, 타임스텝 2 → 높이 슬라이스, 타임스텝 3 → 너비 슬라이스). 이는 diffusion 디노이징이 로컬 시공간 컨텍스트만 필요로 한다는 사실을 활용해 해당 단계에서 슬라이스를 독립적으로 처리할 수 있게 합니다.
- Overlapping patches – 각 슬라이스는 어텐션 블록의 수용 영역에 맞는 작은 여백을 추가해 확장되며, 슬라이스 경계를 넘는 정보도 로컬에서 사용할 수 있게 합니다.
- Position‑aware stitching – 타임스텝의 모든 슬라이스가 디노이징된 후, 경량 네트워크가 알려진 공간 오프셋을 이용해 겹치는 영역을 블렌딩하여 눈에 보이는 이음새를 제거합니다.
- Integration layer – LP는 인코더/디코더와 기존 병렬 실행 엔진 사이에 위치해 필요한 잠재 청크만 전달하고 스티칭된 출력을 받아옵니다. 따라서 나머지 학습/추론 파이프라인은 그대로 유지됩니다.
Results & Findings
| Benchmark | Baseline (e.g., tensor‑parallel) | LP (communication) | FVD ↓ / ↑ | Visual quality (human rating) |
|---|---|---|---|---|
| UCF‑101 | 1.2 GB/step (GPU‑to‑GPU) | 0.04 GB/step (97 % cut) | +0.3 % | ≈ equal |
| Kinetics‑400 | 2.5 GB/step | 0.07 GB/step | –0.1 % | ≈ equal |
| SkyTimelapse | 1.8 GB/step | 0.05 GB/step | +0.2 % | ≈ equal |
- Communication reduction: diffusion 단계당 전송되는 바이트가 최대 97 % 감소.
- Latency: 4‑GPU 서버에서 종단‑종단 추론 시간이 30–45 % 단축.
- Quality: Fréchet Video Distance (FVD)나 Inception Score (IS)에서 통계적으로 유의미한 악화가 없음.
Practical Implications
- Scalable video‑as‑a‑service – 클라우드 제공자는 인터커넥트를 포화시키지 않고 일반 GPU 클러스터에 VDM을 호스팅할 수 있어 운영 비용이 절감됩니다.
- Edge‑to‑cloud hybrid inference – LP의 저대역폭 요구사항 덕분에, 경량 에지 디바이스가 압축된 잠재 패치만 교환하면서 디노이징 작업의 일부를 오프로드하는 것이 가능해집니다.
- Faster prototyping – 개발자는 단순히 GPU를 추가함으로써 더 높은 해상도나 더 긴 클립을 실험할 수 있으며, 통신 예산은 예측 가능하게 유지됩니다.
- Plug‑and‑play adoption – 기존 프레임워크(예: DeepSpeed, Megatron‑LM)는 LP를 얇은 래퍼로 통합할 수 있어 모델 코드를 재작성하거나 처음부터 재학습할 필요가 없습니다.
- Energy efficiency – 데이터 이동이 감소하면 네트워크 패브릭의 전력 소모가 낮아지며, 이는 대규모 AI 서비스에서 점점 중요한 지표가 됩니다.
Limitations & Future Work
- Latency spikes on irregular video lengths – 회전 파티션 스케줄은 대략 균일한 프레임 수를 전제로 하므로, 매우 가변적인 클립 길이는 맞춤형 슬라이싱 휴리스틱이 필요할 수 있습니다.
- Overhead of overlapping reconstruction – 스티칭 네트워크는 계산 비용이 적지만, 매우 저성능 GPU에서는 눈에 띄는 부하가 될 수 있습니다.
- Generality beyond diffusion – LP는 diffusion 디노이징의 지역성을 활용하므로, autoregressive 비디오 모델에 적용하려면 설계 변경이 필요할 수 있습니다.
- Future directions: 멀티모달 diffusion(예: video‑plus‑audio)으로 확장, 콘텐츠 복잡도에 기반한 적응형 파티션 크기 탐색, 고속 인터커넥트(NVLink‑C2C)와의 통합을 통한 더욱 촘촘한 스케일링 등.
Authors
- Zhiyuan Wu
- Shuai Wang
- Li Chen
- Kaihui Gao
- Dan Li
- Yanyu Ren
- Qiming Zhang
- Yong Wang
Paper Information
- arXiv ID: 2512.07350v1
- Categories: cs.DC
- Published: December 8, 2025
- PDF: Download PDF