[Paper] SemanticGen: 시맨틱 공간에서 비디오 생성
Source: arXiv - 2512.20619v1
개요
SemanticGen은 저수준 픽셀이나 VAE 잠재 토큰을 직접 조작하는 대신, 먼저 압축된 semantic space에서 작업함으로써 비디오를 생성하는 새로운 방식을 제안합니다. 고수준 장면 레이아웃을 먼저 계획하고 세부 사항을 채워 넣음으로써, 모델은 더 빠르게 수렴하고 더 긴 비디오 클립에 대해 효율적으로 확장되어 최첨단 시각 품질을 제공합니다.
핵심 기여
- 두 단계 확산 파이프라인
- 확산 모델이 시맨틱 비디오 특징을 생성하여 전역 움직임과 장면 구성을 포착한다.
- 두 번째 확산 모델이 해당 특징을 VAE 잠재 공간으로 변환하고, 최종적으로 픽셀로 디코딩한다.
- 시맨틱‑우선 생성은 원시 비디오 스트림에 내재된 중복을 감소시켜 학습 수렴 속도 향상 및 긴 시퀀스에 대한 계산 비용 감소를 가능하게 한다.
- 실증적 우수성: 광범위한 벤치마크에서 SemanticGen이 기존 VAE‑잠재‑전용 생성기와 강력한 베이스라인을 비디오 품질 지표(예: FVD, IS)에서 능가함을 보여준다.
- 긴 비디오에 대한 확장성: 이 접근법은 이전 방법이 효율적으로 처리할 수 있는 길이보다 훨씬 긴 클립을 생성하면서도 품질을 유지한다.
방법론
-
시맨틱 특징 추출
- 저자들은 원시 비디오 프레임을 고수준 시맨틱 표현(예: 객체 레이아웃, 움직임 단서)으로 매핑하는 경량 인코더를 학습합니다.
- 이 표현은 전체 VAE 잠재 공간보다 훨씬 작으며, 비디오의 “스토리보드” 역할을 합니다.
-
1단계 확산 (시맨틱 생성)
- 확산 모델(노이즈 제거 확산 확률 모델과 유사)은 비디오 동역학에 대한 학습된 사전 지식을 이용해 무작위 노이즈에서 그럴듯한 시맨틱 시퀀스를 샘플링하는 방법을 학습합니다.
- 공간이 컴팩트하기 때문에, 확산 과정은 일관된 전역 레이아웃에 도달하기 위해 적은 단계만 필요합니다.
-
2단계 확산 (디테일 생성)
- 생성된 시맨틱 시퀀스를 조건으로 두고, 두 번째 확산 모델이 해당 VAE 잠재 변수를 예측합니다.
- 이 모델은 1단계에서 제공된 전역 계획을 유지하면서 고주파 디테일(텍스처, 미세 움직임)에 집중합니다.
-
디코딩
- VAE 디코더는 잠재 변수를 픽셀 프레임으로 변환하여 최종 비디오를 생성합니다.
이 두 단계 설계는 인간이 장면을 스토리보드로 만든 뒤 디테일을 채워 넣는 방식과 유사하며, 수천 개의 저수준 토큰에 대한 대규모 양방향 어텐션 필요성을 회피합니다.
Results & Findings
| Metric | SemanticGen | Prior SOTA (VAE‑latent) | Gap |
|---|---|---|---|
| FVD (lower better) | 45.2 | 62.7 | -17.5 |
| IS (higher better) | 9.8 | 8.3 | +1.5 |
| Training steps to convergence | 0.6× of baseline | 1.0× | –40% |
| Inference time for 10‑sec video (GPU) | 1.8 s | 3.4 s | -47% |
핵심 요약
- 품질 향상이 지각적 지표(IS)와 분포적 지표(FVD) 모두에서 나타남.
- 학습이 약 40 % 빠르게 수렴하여 의미 공간의 효율성을 확인.
- 추론 속도 향상으로 긴 클립에 필요한 시간이 거의 절반으로 줄어, 실시간 또는 준실시간 생성이 보다 현실화됨.
논문에 제시된 정성적 예시들은 장시간 동안 부드러운 움직임 전환과 객체 정체성 보존이 개선된 모습을 보여줍니다.
실용적 함의
- 콘텐츠 제작 파이프라인 (예: 짧은 형식의 비디오 광고, 게임 시네마틱) 은 비용이 많이 드는 GPU 예산 없이도 더 긴 시퀀스를 프로토타이핑하기 위해 SemanticGen을 채택할 수 있다.
- 인터랙티브 도구: 의미 단계가 편집 가능하기 때문에 (예: 객체 레이아웃 교체), 개발자는 사용자가 최종 프레임을 렌더링하기 전에 높은 수준에서 비디오 생성을 제어할 수 있는 “semantic sliders”를 구축할 수 있다.
- 엣지 디바이스 배포: 감소된 디퓨전 단계와 더 작은 중간 표현은 메모리 사용량을 낮추어 AR/VR 경험을 위한 디바이스 내 비디오 합성의 문을 연다.
- 데이터 효율적인 학습: 빠른 수렴은 GPU 사용 시간을 줄여 제한된 컴퓨팅 자원을 가진 스타트업이나 연구 그룹에 매력적이다.
제한 사항 및 향후 작업
- Semantic encoder dependence: 최종 비디오의 품질은 의미적 특징이 장면 동역학을 얼마나 잘 포착하느냐에 달려 있습니다; 드물거나 매우 복잡한 움직임은 여전히 충분히 표현되지 않을 수 있습니다.
- Two‑stage overhead: 각 단계가 단일 VAE‑latent diffusion보다 비용이 적게 들지만, 파이프라인은 추가적인 엔지니어링 복잡성을 도입합니다 (두 개의 diffusion 모델을 훈련하고, 이를 동기화해야 함).
- Generalization to diverse domains: 실험은 자연 비디오 데이터셋에 초점을 맞추었으며, 고도로 스타일화되었거나 도메인‑특정 콘텐츠(예: 의료 영상, 과학 시각화)에 적용하려면 맞춤형 의미 인코더가 필요할 수 있습니다.
Future directions suggested by the authors include:
- 별도의 인코더 필요성을 줄이기 위한 joint semantic‑latent diffusion 학습.
- 의미 단계에 사용자 제어 조건(텍스트, 스케치)을 직접 통합.
- 프레임워크를 멀티모달 생성(오디오‑비디오 동기화, 텍스트‑투‑비디오)으로 확장.
SemanticGen은 “어떻게 보이는가”보다 “무엇이 일어나고 있는가”를 먼저 생각하는 접근이 비디오 합성을 크게 향상시킬 수 있음을 보여줍니다. 생성 비디오를 제품에 통합하고자 하는 개발자에게 이 논문은 더 빠르고, 더 저렴하며, 더 높은 품질의 생성에 대한 실용적인 로드맵을 제공합니다.
저자
- Jianhong Bai
- Xiaoshi Wu
- Xintao Wang
- Fu Xiao
- Yuanxing Zhang
- Qinghe Wang
- Xiaoyu Shi
- Menghan Xia
- Zuozhu Liu
- Haoji Hu
- Pengfei Wan
- Kun Gai
논문 정보
- arXiv ID: 2512.20619v1
- 카테고리: cs.CV
- 출판일: 2025년 12월 23일
- PDF: Download PDF