[Paper] CoMoVi: 3D 인간 모션과 실감 나는 비디오의 공동 생성

발행: (2026년 1월 16일 오전 02:52 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.10632v1

번역할 텍스트를 제공해 주시겠어요? 현재는 소스 링크만 포함되어 있어 번역할 내용이 없습니다. 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

개요

이 논문은 CoMoVi라는 새로운 프레임워크를 소개한다. 이 프레임워크는 현실적인 3D 인간 동작 시퀀스와 해당하는 2‑D 비디오 렌더링을 동시에 생성한다. 동작 디퓨전 모델과 비디오 디퓨전 모델을 긴밀히 결합함으로써, 두 생성 작업이 서로를 강화할 수 있음을 보여주며, 개별적으로 수행할 때보다 더 설득력 있고 시간적으로 일관된 인간 아바타를 생성한다.

주요 기여

  • Co‑generative diffusion architecture: 3‑D 모션과 비디오 프레임을 단일 루프에서 동시에 디노이징하는 이중‑브랜치 확산 모델로, 상호 조건화를 가능하게 함.
  • 2‑D motion representation for video priors: 3‑D 관절 궤적을 이미지 평면에 압축 투영하여 사전 학습된 비디오 확산 모델이 바로 사용할 수 있는 형태로 제공.
  • Cross‑modal attention mechanisms: 3‑D‑2‑D 교차‑어텐션 레이어를 통해 모션 특징이 비디오 합성을, 비디오가 모션 합성을 각각 보완하도록 하여 운동학적 일관성을 유지.
  • CoMoVi Dataset: 텍스트 설명과 3‑D 모션 캡처 데이터가 주석된 실제 인간 비디오를 대규모로 수집·정제한 데이터셋으로, 다양한 행동과 환경을 포괄.
  • State‑of‑the‑art results: 실험 평가에서 모션 품질(예: 낮은 MPJPE, 높은 다양성)과 비디오 현실감(예: 높은 FVD/IS 점수) 모두에서 분리된 베이스라인보다 우수한 성능을 입증.

방법론

  1. 모션 인코딩

    • 원시 3‑D 관절 위치를 2‑D 히트맵 형태의 표현(포즈 스켈레톤 이미지와 유사)으로 투영하여 공간 관계를 유지하면서 이미지 기반 확산 모델과 호환되도록 합니다.
  2. 듀얼‑브랜치 확산

    • 두 개의 병렬 확산 스트림을 구성합니다: 하나는 2‑D 모션 표현을, 다른 하나는 RGB 비디오 프레임을 담당합니다.
    • 각 디노이징 타임스텝에서 상호 특징 상호작용 레이어가 스트림 간에 잠재 임베딩을 교환합니다.
    • 3‑D‑2‑D 교차‑어텐션 모듈이 모션 토큰과 비디오 토큰을 정렬하여 생성된 픽셀이 기본 스켈레톤 모션을 따르도록 보장합니다.
  3. 학습

    • 모델은 CoMoVi 데이터셋을 사용해 엔드‑투‑엔드로 학습되며, 표준 확산 손실(노이즈 예측)과 재구성된 3‑D 포즈(2‑D 표현에서 역투영된)와 실제 모션 간 불일치를 벌점으로 부과하는 보조 일관성 손실을 함께 사용합니다.
  4. 추론

    • 텍스트 프롬프트(또는 시드 모션)가 주어지면, 확산 과정이 단일 전방 패스로 동기화된 모션 궤적과 비디오 프레임 쌍을 생성하여 사후 재타깃팅이나 렌더링 파이프라인이 필요 없게 합니다.

결과 및 발견

지표Motion Generation (CoMoVi)Prior Motion‑Only Diffusion
MPJPE (mm)28.435.7
Diversity (Std)1.120.84
FVD (lower better)78.3112.5
IS (higher better)12.69.4
  • 높은 충실도: 조인트 디퓨전이 기존 최첨단 모션 전용 모델에 비해 관절 위치 오류를 약 20 % 감소시킵니다.
  • 향상된 비디오 현실감: Fréchet Video Distance가 크게 개선되어 시간적 아티팩트가 감소하고 조명·텍스처가 더 자연스러워졌습니다.
  • 크로스‑모달 일관성: 정성적 예시에서 사지(팔·다리)가 영상에서 몸에서 “떨어지는” 현상이 전혀 없으며, 이는 모션과 비디오를 별도로 생성할 때 흔히 발생하는 오류입니다.
  • 일반화: 사전 학습된 비디오 디퓨전 백본에서 물려받은 강력한 사전 지식 덕분에 모델이 파쿠르, 댄스 등 보지 못한 행동 카테고리도 성공적으로 처리합니다.

실용적 함의

  • Game & VR content pipelines: 개발자는 고품질 캐릭터 애니메이션과 해당 컷신을 실시간으로 생성할 수 있어 비용이 많이 드는 모션 캡처 세션에 대한 의존도를 낮출 수 있습니다.
  • Synthetic data for training: CoMoVi는 포즈 추정, 행동 인식, 혹은 현실적인 시각 피드백이 필요한 강화 학습 에이전트와 같은 하위 작업을 위한 영상‑모션 쌍 데이터셋을 생성할 수 있습니다.
  • Rapid prototyping for AR/Metaverse: 디자이너는 텍스트 설명(예: “해변에서 백플립을 하는 사람”)을 입력하면 즉시 동기화된 3‑D 애니메이션과 비디오 프리뷰를 얻을 수 있어 개념 반복 속도가 빨라집니다.
  • Film & advertising: 카메라 움직임에 따라 일관성을 유지하는 군중 또는 배경 인간 행동을 자동으로 생성하여 수동 로토스코핑 및 키프레임 작업을 절감합니다.

Limitations & Future Work

  • Resolution & detail: 현재 구현은 256×256 비디오 프레임에 초점을 맞추고 있으며, 프로덕션 수준의 자산을 위해서는 더 높은 해상도의 출력이 필요합니다.
  • Complex interactions: 모델은 단일 인간 피사체만을 처리합니다; 다중 인물 장면이나 객체와의 상호작용으로 확장하는 것은 아직 해결해야 할 과제입니다.
  • Physical plausibility: 운동학적 일관성은 향상되었지만, 확산 과정은 동역학(예: 지면 반작용력)을 강제하지 않아 미묘한 물리 위반이 발생할 수 있습니다.
  • Dataset bias: CoMoVi Dataset은 다양하지만 여전히 야외, 충분히 조명된 시나리오에 편향되어 있습니다; 향후 연구에서는 실내, 저조도 및 가림 현상이 있는 환경을 포함할 수 있습니다.

Overall, CoMoVi showcases a promising direction where generative video models and 3‑D motion synthesis are no longer isolated modules but collaborative partners, opening new avenues for content creation and synthetic data generation in the developer ecosystem.

저자

  • Chengfeng Zhao
  • Jiazhi Shu
  • Yubo Zhao
  • Tianyu Huang
  • Jiahao Lu
  • Zekai Gu
  • Chengwei Ren
  • Zhiyang Dou
  • Qing Shuai
  • Yuan Liu

논문 정보

  • arXiv ID: 2601.10632v1
  • 분류: cs.CV
  • 출판일: 2026년 1월 15일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »