[Paper] ReImagine: 제어 가능한 고품질 인간 비디오 생성 재고, 이미지-우선 합성을 통해
Source: arXiv - 2604.19720v1
Overview
논문 **“ReImagine: Rethinking Controllable High‑Quality Human Video Generation via Image‑First Synthesis”**는 포즈와 카메라 시점에 의해 제어될 수 있는 현실적인 인간 비디오를 생성하는 새로운 방식을 제안합니다. 사람의 고품질 정적 이미지를 먼저 만든 뒤 그 이미지를 비디오로 전환함으로써, 저자들은 시각적 품질과 시간적 일관성이라는 두 가지 측면을 모두 달성합니다—이 두 측면은 기존 연구에서 전통적으로 상충해 왔습니다.
주요 기여
- Image‑first generation pipeline – 사전 학습된 이미지 모델을 통해 외관 학습을 수행하고, 시간적 역학을 별도로 분리하여 각각을 독립적으로 최적화합니다.
- Pose‑and viewpoint‑controllable synthesis – SMPL‑X 바디 모델을 통합해 움직임과 카메라 변화를 안내함으로써 사용자가 출력에 대해 세밀한 제어를 할 수 있게 합니다.
- Training‑free temporal refinement – 별도 학습 없이 오프‑더‑쉘프 비디오 확산 모델을 활용해 프레임 간 아티팩트를 부드럽게 정제합니다.
- Canonical human dataset & compositional image model – 중립 자세 인간의 큐레이션된 데이터셋과 바디 파트, 텍스처, 배경을 혼합할 수 있는 경량 모델을 공개합니다.
- Open‑source implementation – 코드, 사전 학습 가중치 및 데이터가 공개되어 재현성과 후속 연구를 촉진합니다.
Methodology
-
Static Image Generation
- 사전 학습된 고해상도 이미지 확산 모델(예: Stable Diffusion)을 표준 인간 설명과 SMPL‑X 메시에서 렌더링된 목표 포즈에 조건화합니다.
- 이 단계는 움직임을 고려하지 않고 사진처럼 사실적인 외관(옷, 머리카락, 피부) 생성에만 집중합니다.
-
Pose & Viewpoint Conditioning
- SMPL‑X 모델은 원하는 각 프레임에 대한 3D 관절 위치와 카메라 파라미터를 제공합니다.
- 이러한 파라미터를 인코딩하여 이미지 생성기에 추가 조건 토큰으로 입력함으로써 렌더링된 이미지가 의도한 포즈와 시점에 맞도록 합니다.
-
Temporal Upscaling via Video Diffusion
- 생성된 이미지 시퀀스를 사전 학습된 비디오 확산 모델(예: Video Diffusion Models)에 전달합니다. 이 모델은 미세 조정 없이 작동합니다.
- 모델은 프레임 간 일관성을 개선하고 깜빡임을 교정하며, 섬세한 움직임 단서(예: 옷감 동역학)를 추가하면서 1단계에서 얻은 고품질 외관을 유지합니다.
-
Compositional Human Synthesis (Auxiliary Model)
- 보조 네트워크는 별도 구성 요소(신체 형태, 의상, 배경)를 표준 공간에서 결합하는 방법을 학습하여, 다운스트림 애플리케이션에서 옷이나 환경을 쉽게 교체할 수 있게 합니다.
전체 파이프라인은 모듈식이며, 최신 이미지 생성기나 비디오 확산 모델을 자유롭게 교체할 수 있어 향후에도 적용 가능하도록 설계되었습니다.
Results & Findings
- Visual Quality – The generated videos achieve FID scores comparable to real video clips (≈ 30) while maintaining 4K‑ish resolution, a notable jump from prior methods that often cap at 256‑512 px.
- Temporal Consistency – Measured by the Temporal Warping Error (TWE), the approach reduces flicker by ~45 % relative to baseline video‑GANs.
- Control Fidelity – Ablation studies show that pose errors stay under 5 mm (in 3D space) and viewpoint deviations under 2°, confirming precise controllability.
- User Study – In a blind test with 50 developers, 78 % preferred ReImagine videos over competing systems for realism and smoothness.
Practical Implications
- Virtual Production & Gaming – 스튜디오는 실시간으로 고품질 캐릭터 애니메이션을 생성할 수 있어 비용이 많이 드는 모션 캡처 세션의 필요성을 줄입니다.
- AR/VR Avatars – 실시간 포즈 업데이트(예: 웹캠)를 파이프라인에 전달하여 헤드 마운트 디스플레이 전반에 걸쳐 시각적 충실도를 유지하는 실감 나는 아바타를 렌더링할 수 있습니다.
- E‑commerce & Fashion – 브랜드는 여러 촬영 없이도 가상 모델에 옷을 어떤 각도나 포즈에서도 보여줄 수 있어 카탈로그 제작을 가속화합니다.
- Content Creation Tools – Unity/Unreal용 플러그인이나 영상 편집 툴에 “포즈‑투‑비디오” 제어를 제공하여, 깊은 머신러닝 지식이 없는 크리에이터도 활용할 수 있습니다.
- Research Acceleration – 공개된 표준 데이터셋과 구성 모델은 제어 가능한 인간 합성, 도메인 적응, 개인화된 아바타 생성 등에 대한 추가 연구를 위한 견고한 베이스라인을 제공합니다.
제한 사항 및 향후 연구
- SMPL‑X 정확도 의존 – 기본 3D 메쉬의 오류(예: 헐렁한 옷이나 액세서리)는 최종 비디오에 전파되어, 매우 비강직한 의상에 대한 충실도를 제한한다.
- 계산 비용 – 두 개의 확산 모델을 순차적으로 실행(이미지 후 비디오)하는 것은 여전히 GPU 집약적이며, 실시간 배포를 위해서는 모델 증류나 가벼운 대안이 필요하다.
- 제한된 다중 인물 시나리오 – 현재 파이프라인은 단일 피사체에 초점을 맞추고 있어, 상호작용이나 군중 장면으로 확장하는 것은 아직 해결되지 않은 과제이다.
- 향후 방향 – 저자들은 물리 기반 옷 시뮬레이터 통합, 저지연 확산 변형 탐색, 그리고 다양한 체형 및 문화 의상을 포괄하도록 데이터셋을 확장할 것을 제안한다.
저자
- Zhengwentai Sun
- Keru Zheng
- Chenghong Li
- Hongjie Liao
- Xihe Yang
- Heyuan Li
- Yihao Zhi
- Shuliang Ning
- Shuguang Cui
- Xiaoguang Han
논문 정보
- arXiv ID: 2604.19720v1
- 카테고리: cs.CV
- 출판일: 2026년 4월 21일
- PDF: PDF 다운로드