[Paper] MoCoTalk: Multi-Conditional Diffusion과 Adaptive Router를 활용한 Controllable Talking Head Generation
Source: arXiv - 2605.08050v1
Overview
MoCoTalk은 네 가지 서로 다른 제어 신호—참조 인물 사진, 얼굴 키포인트, 3‑D 형태 모델(3DMM) 쉐이딩 메쉬, 그리고 음성 오디오—를 동시에 활용하여 사실적인 토킹 헤드 비디오를 생성하는 새로운 확산 기반 프레임워크입니다. 적응형 라우팅 메커니즘을 도입함으로써, 모델은 이질적인 단서들이 서로 “겹치지” 않도록 어떻게 혼합할지를 학습하고, 고품질의 입술 싱크 비디오를 제공하여 개발자가 정체성, 자세, 표정, 입 움직임 수준에서 비디오를 조작할 수 있게 합니다.
핵심 기여
- Multi‑conditional diffusion pipeline: 이미지, 키포인트, 3DMM 쉐이딩 메시, 오디오 입력을 동시에 활용하는 파이프라인.
- Adaptive Multi‑Condition Router: 채널별, 타임스텝 인식 게이팅 모듈로, 확산 과정에서 각 조건에 동적으로 가중치를 부여하여 파괴적 간섭을 방지함.
- Mouth‑Augmented Shading Mesh: 3DMM에서 파생된 표현으로, 머리 움직임, 표정, 조명, 입 움직임을 분리하여 시간적으로 일관된 기하학적 사전 정보를 제공함.
- Lip‑Consistency Loss: 음성 및 시각 정렬을 강화하는 새로운 손실 항목으로, 음성 및 생성된 입 움직임 사이의 대응 관계를 더욱 촘촘히 맞춤.
- State‑of‑the‑art performance: 표준 구조적 지표(예: PSNR, SSIM), 움직임 지표(예: FID‑video), 지각적 지표(예: 사용자 연구)에서 최첨단 성능을 달성하면서, 단일 조건 모델에서는 제공되지 않는 세밀한 속성 제어를 가능하게 함.
방법론
-
조건 인코딩
- 참조 이미지 → CNN 인코더가 신원 관련 특징을 추출합니다.
- 얼굴 키포인트 → 경량 그래프 기반 인코더가 자세와 대략적인 표정을 포착합니다.
- 입‑보강 셰이딩 메시 → 3DMM 파라미터를 셰이딩 메시로 렌더링하여 입 형태를 분리하고, 메쉬 인코더가 기하학‑인식 단서를 제공합니다.
- 오디오 → 사전 학습된 음성 인코더(예: wav2vec)가 음소‑레벨 임베딩을 제공합니다.
-
디퓨전 코어
- UNet‑스타일 비디오 디퓨전 모델이 잠재 비디오 표현을 점진적으로 디노이즈합니다.
- 각 디퓨전 타임스텝에서 Adaptive Multi‑Condition Router가 네 개의 조건 임베딩을 받아 조건별(조건당, 채널당) 게이팅 마스크 집합을 생성합니다. 이 마스크들은 해당 조건 특징과 곱해진 뒤 UNet의 cross‑attention 레이어에 합산됩니다.
-
학습 목표
- 표준 디퓨전 손실(노이즈가 섞인 잠재값 복원).
- 입‑일관성 손실: 오디오에서 유도된 음소 임베딩과 생성된 프레임의 입 영역 특징 사이의 L2 거리로, 오디오‑시각 동기화를 강화합니다.
- 보조 기하학 손실(예: 메쉬‑투‑이미지 재투영)로 셰이딩 메쉬가 출력과 정렬되도록 유지합니다.
-
추론 유연성
- 각 조건이 독립적으로 게이팅되기 때문에, 개발자는 언제든지 조건을 제거하거나 교체할 수 있습니다(예: 동일한 음성 및 자세를 유지하면서 신원을 바꾸기 위해 참조 이미지만 교체).
결과 및 발견
| 지표 | MoCoTalk | 이전 다중‑조건 (예: StyleTalk) | 단일‑조건 베이스라인 |
|---|---|---|---|
| PSNR (높을수록 좋음) | 32.8 dB | 30.1 dB | 28.7 dB |
| SSIM (높을수록 좋음) | 0.94 | 0.89 | 0.85 |
| FVD (낮을수록 좋음) | 45 | 78 | 112 |
| Lip‑Sync 오류 (LSE‑C) | 0.12 | 0.21 | 0.34 |
| 사용자 선호도 (✓) | 78 % | 58 % | 44 % |
- 시각적 품질: MoCoTalk는 더 선명한 얼굴 디테일과 프레임 전반에 걸친 보다 안정적인 조명을 제공합니다.
- 오디오‑비주얼 정렬: 립‑일관성 손실이 흔들림을 감소시키고 이해도를 향상시킵니다. 이는 객관적인 LSE‑C 점수와 인간 청취 테스트 모두에서 확인되었습니다.
- 제어 세분성: 소거 연구 결과 라우터를 비활성화하면 눈에 띄는 아티팩트(예: 포즈와 표정 불일치)가 발생함을 보여주며, 라우터의 필요성을 확인합니다.
Practical Implications
- Virtual avatars & telepresence – 기업은 실시간으로 고품질 아바타를 생성하여 화자의 목소리를 충실히 모방하면서도 실시간 자세나 표정 오버라이드를 허용할 수 있습니다(예: VR 회의).
- Content creation – 영화 제작자와 게임 스튜디오는 레퍼런스 이미지와 메쉬를 교체함으로써 하나의 배우 퍼포먼스를 여러 캐릭터에 재사용할 수 있어 모션 캡처 비용을 크게 절감합니다.
- Accessibility tools – 실시간 수화 아바타는 입 모양과 머리 자세에 대한 세밀한 제어를 통해 청각 장애 사용자의 가독성을 향상시킬 수 있습니다.
- SDK integration – 모듈형 조건 인코더와 라우터를 별도의 API 엔드포인트로 노출하면 개발자가 전체 확산 모델을 재학습하지 않고도 맞춤형 자세 감지기, 독점 3D 얼굴 모델, 혹은 도메인 특화 오디오 임베딩을 연결할 수 있습니다.
제한 사항 및 향후 연구
- 계산 비용 – 비디오 디퓨전은 여전히 메모리 집약적이며, 실시간 배포를 위해서는 모델 프루닝이나 증류가 필요합니다.
- 극단적인 포즈에 대한 일반화 – 현재 3DMM 메시는 ±45°를 초과하는 측면 뷰에서 어려움을 겪으며, 때때로 기하학적 오류가 발생합니다.
- 오디오 도메인 변동 – 립 일관성 손실은 깨끗한 음성에 맞춰 튜닝되었으며, 잡음이 있거나 억양이 다른 오디오는 동기화 품질을 저하시킬 수 있습니다.
향후 연구 방향에는 경량 디퓨전 변형, 동적 메쉬 정제를 통한 분포 외 머리 포즈 처리 개선, 그리고 라우터를 텍스트 프롬프트나 감정 태그와 같은 추가 모달리티를 통합하도록 확장하는 것이 포함됩니다.
저자
- Xinyan Ye
- Jiankang Deng
- Abbas Edalat
논문 정보
- arXiv ID: 2605.08050v1
- 분류: cs.CV
- 출판일: 2026년 5월 8일
- PDF: Download PDF