[Paper] ReImagine: 제어 가능한 고품질 인간 비디오 생성 재고, 이미지-우선 합성을 통해

발행: 19시간 전 (2026년 4월 22일 AM 02:47 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2604.19720v1

Overview

논문 **“ReImagine: Rethinking Controllable High‑Quality Human Video Generation via Image‑First Synthesis”**는 포즈와 카메라 시점에 의해 제어될 수 있는 현실적인 인간 비디오를 생성하는 새로운 방식을 제안합니다. 사람의 고품질 정적 이미지를 먼저 만든 뒤 그 이미지를 비디오로 전환함으로써, 저자들은 시각적 품질과 시간적 일관성이라는 두 가지 측면을 모두 달성합니다—이 두 측면은 기존 연구에서 전통적으로 상충해 왔습니다.

주요 기여

Image‑first generation pipeline – 사전 학습된 이미지 모델을 통해 외관 학습을 수행하고, 시간적 역학을 별도로 분리하여 각각을 독립적으로 최적화합니다.
Pose‑and viewpoint‑controllable synthesis – SMPL‑X 바디 모델을 통합해 움직임과 카메라 변화를 안내함으로써 사용자가 출력에 대해 세밀한 제어를 할 수 있게 합니다.
Training‑free temporal refinement – 별도 학습 없이 오프‑더‑쉘프 비디오 확산 모델을 활용해 프레임 간 아티팩트를 부드럽게 정제합니다.
Canonical human dataset & compositional image model – 중립 자세 인간의 큐레이션된 데이터셋과 바디 파트, 텍스처, 배경을 혼합할 수 있는 경량 모델을 공개합니다.
Open‑source implementation – 코드, 사전 학습 가중치 및 데이터가 공개되어 재현성과 후속 연구를 촉진합니다.

Methodology

Static Image Generation
- 사전 학습된 고해상도 이미지 확산 모델(예: Stable Diffusion)을 표준 인간 설명과 SMPL‑X 메시에서 렌더링된 목표 포즈에 조건화합니다.
- 이 단계는 움직임을 고려하지 않고 사진처럼 사실적인 외관(옷, 머리카락, 피부) 생성에만 집중합니다.
Pose & Viewpoint Conditioning
- SMPL‑X 모델은 원하는 각 프레임에 대한 3D 관절 위치와 카메라 파라미터를 제공합니다.
- 이러한 파라미터를 인코딩하여 이미지 생성기에 추가 조건 토큰으로 입력함으로써 렌더링된 이미지가 의도한 포즈와 시점에 맞도록 합니다.
Temporal Upscaling via Video Diffusion
- 생성된 이미지 시퀀스를 사전 학습된 비디오 확산 모델(예: Video Diffusion Models)에 전달합니다. 이 모델은 미세 조정 없이 작동합니다.
- 모델은 프레임 간 일관성을 개선하고 깜빡임을 교정하며, 섬세한 움직임 단서(예: 옷감 동역학)를 추가하면서 1단계에서 얻은 고품질 외관을 유지합니다.
Compositional Human Synthesis (Auxiliary Model)
- 보조 네트워크는 별도 구성 요소(신체 형태, 의상, 배경)를 표준 공간에서 결합하는 방법을 학습하여, 다운스트림 애플리케이션에서 옷이나 환경을 쉽게 교체할 수 있게 합니다.

전체 파이프라인은 모듈식이며, 최신 이미지 생성기나 비디오 확산 모델을 자유롭게 교체할 수 있어 향후에도 적용 가능하도록 설계되었습니다.

Results & Findings

Visual Quality – The generated videos achieve FID scores comparable to real video clips (≈ 30) while maintaining 4K‑ish resolution, a notable jump from prior methods that often cap at 256‑512 px.
Temporal Consistency – Measured by the Temporal Warping Error (TWE), the approach reduces flicker by ~45 % relative to baseline video‑GANs.
Control Fidelity – Ablation studies show that pose errors stay under 5 mm (in 3D space) and viewpoint deviations under 2°, confirming precise controllability.
User Study – In a blind test with 50 developers, 78 % preferred ReImagine videos over competing systems for realism and smoothness.

Practical Implications

Virtual Production & Gaming – 스튜디오는 실시간으로 고품질 캐릭터 애니메이션을 생성할 수 있어 비용이 많이 드는 모션 캡처 세션의 필요성을 줄입니다.
AR/VR Avatars – 실시간 포즈 업데이트(예: 웹캠)를 파이프라인에 전달하여 헤드 마운트 디스플레이 전반에 걸쳐 시각적 충실도를 유지하는 실감 나는 아바타를 렌더링할 수 있습니다.
E‑commerce & Fashion – 브랜드는 여러 촬영 없이도 가상 모델에 옷을 어떤 각도나 포즈에서도 보여줄 수 있어 카탈로그 제작을 가속화합니다.
Content Creation Tools – Unity/Unreal용 플러그인이나 영상 편집 툴에 “포즈‑투‑비디오” 제어를 제공하여, 깊은 머신러닝 지식이 없는 크리에이터도 활용할 수 있습니다.
Research Acceleration – 공개된 표준 데이터셋과 구성 모델은 제어 가능한 인간 합성, 도메인 적응, 개인화된 아바타 생성 등에 대한 추가 연구를 위한 견고한 베이스라인을 제공합니다.

제한 사항 및 향후 연구

SMPL‑X 정확도 의존 – 기본 3D 메쉬의 오류(예: 헐렁한 옷이나 액세서리)는 최종 비디오에 전파되어, 매우 비강직한 의상에 대한 충실도를 제한한다.
계산 비용 – 두 개의 확산 모델을 순차적으로 실행(이미지 후 비디오)하는 것은 여전히 GPU 집약적이며, 실시간 배포를 위해서는 모델 증류나 가벼운 대안이 필요하다.
제한된 다중 인물 시나리오 – 현재 파이프라인은 단일 피사체에 초점을 맞추고 있어, 상호작용이나 군중 장면으로 확장하는 것은 아직 해결되지 않은 과제이다.
향후 방향 – 저자들은 물리 기반 옷 시뮬레이터 통합, 저지연 확산 변형 탐색, 그리고 다양한 체형 및 문화 의상을 포괄하도록 데이터셋을 확장할 것을 제안한다.

저자

Zhengwentai Sun
Keru Zheng
Chenghong Li
Hongjie Liao
Xihe Yang
Heyuan Li
Yihao Zhi
Shuliang Ning
Shuguang Cui
Xiaoguang Han

논문 정보

arXiv ID: 2604.19720v1
카테고리: cs.CV
출판일: 2026년 4월 21일
PDF: PDF 다운로드

[Paper] ReImagine: 제어 가능한 고품질 인간 비디오 생성 재고, 이미지-우선 합성을 통해

Overview

주요 기여

Methodology

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Tstars-Tryon 1.0: 견고하고 현실적인 Virtual Try-On을 위한 다양한 패션 아이템

[Paper] 안정성의 경계에서의 일반화

[Paper] VLA Foundry: Vision-Language-Action 모델 학습을 위한 통합 프레임워크

[Paper] SpanVLA: 효율적인 액션 브리징 및 네거티브-리커버리 샘플을 통한 Vision-Language-Action 모델 학습