[Paper] JUST-DUB-IT: Joint Audio-Visual Diffusion을 통한 비디오 더빙
Source: arXiv - 2601.22143v1
개요
논문 “JUST‑DUB‑IT: Video Dubbing via Joint Audio‑Visual Diffusion” 은 단일, 기반 수준 확산 모델을 실용적인 비디오 더빙 엔진으로 전환할 수 있음을 보여준다. 경량 LoRA(Low‑Rank Adaptation) 로 모델을 파인튜닝함으로써, 저자들은 현재 더빙 도구를 장악하고 있는 복잡한 다단계 파이프라인 없이도 음성의 동시 번역과 원본 화자의 사실적인 입술 싱크를 달성한다.
주요 기여
- 통합 더빙 모델 – 사전 학습된 오디오‑비주얼 확산 모델을 번역, 음성 합성, 얼굴 움직임 생성까지 한 번에 수행하도록 적용.
- LoRA 기반 컨디셔닝 – 기존 오디오‑비주얼 클립을 입력받아 신원을 유지하면서 더빙된 버전을 출력하도록 하는 작고 학습 가능한 LoRA를 도입.
- 합성 다국어 학습 데이터 – 확산 모델 자체를 사용해 다국어 비디오 클립(단일 클립 내 언어 전환)을 쌍으로 생성하고 각 절반을 인페인팅하여 비용이 많이 드는 수동 라벨링 더빙 데이터셋의 필요성을 없앰.
- 실제 환경 동역학에 대한 견고성 – 복잡한 머리 움직임, 조명 변화, 배경 활동이 있는 경우에도 고품질 입술 동기화를 입증.
- 정량적 및 지각적 향상 – 시각적 충실도, 동기화 정확도, 전체 비디오 품질 측면에서 최첨단 더빙 파이프라인 대비 측정 가능한 개선을 보여줌.
방법론
- Base Model – 사운드와 비디오 프레임을 동시에 생성하도록 사전 학습된 대규모 오디오‑비주얼 디퓨전 모델에서 시작합니다.
- LoRA Fine‑Tuning – 모델의 교차 모달 어텐션 레이어에 저‑랭크 어댑터(LoRA)를 추가합니다. 이 어댑터는 입력 비디오‑오디오 쌍에 조건을 부여하면서도 기본 모델의 강력한 생성 사전 지식을 활용하도록 학습됩니다.
- Synthetic Paired Data Generation
- 기본 디퓨전 모델은 클립 중간에 말하는 언어를 교체하여 원본 클립의 다국어 버전을 생성합니다.
- 클립의 각 절반을 인페인팅하여 오디오는 목표 언어로 교체하고, 얼굴 영역은 새로운 음성에 맞게 재생성합니다.
- 그 결과 동일한 화자를 위한 “원본 ↔ 더빙” 비디오 쌍의 데이터셋이 자동으로 대규모 생성됩니다.
- Training Loop – LoRA는 이러한 합성 쌍을 이용해 원본 오디오‑비주얼 콘텐츠를 더빙된 출력으로 매핑하는 방법을 학습하며, 화자 정체성과 움직임 단서를 보존합니다.
- Inference – 테스트 시 사용자는 비디오와 목표 언어의 스크립트를 제공하면, LoRA가 강화된 디퓨전 모델이 한 번의 포워드 패스로 새로운 오디오 트랙과 동기화된 얼굴 애니메이션을 생성합니다.
결과 및 발견
- Lip‑Sync Accuracy – 최고 오픈‑소스 더빙 파이프라인에 비해 입술 동기화 오류(LSE‑C 기준)를 23 % 감소시켰습니다.
- Visual Fidelity – 도전적인 빠른 움직임 클립에서 구조적 유사도(SSIM)를 0.07 향상시켜 재생성된 얼굴 영역의 아티팩트가 감소했음을 나타냅니다.
- Speaker Identity Preservation – 얼굴 인식 인코더를 사용한 정체성 유사도 점수가 0.92 > 로 유지되어 모델이 일반적인 “말하는 머리”로 흐려지지 않음을 보여줍니다.
- Robustness Tests – 야외 조명, 가림 현상, 급격한 머리 회전 등 다양한 환경에서도 높은 동기화와 시각적 품질을 유지하며, 전통적인 방법이 종종 실패하는 상황에서도 견고함을 입증했습니다.
- User Study – 50명의 참가자를 대상으로 한 블라인드 선호도 테스트에서 68 %가 가장 강력한 베이스라인보다 JUST‑DUB‑IT 출력물을 선호했으며, 그 이유로 “보다 자연스러운 입술 움직임”과 “더 명확한 음성”을 꼽았습니다.
실용적 시사점
- 콘텐츠 현지화 – 미디어 기업은 전 세계 출시를 위해 더빙을 자동화함으로써 비용이 많이 드는 스튜디오 재녹음 및 수동 립싱크 작업을 크게 줄일 수 있습니다.
- 실시간 번역 – 단일 패스 아키텍처는 단일 GPU에서 실시간의 약 2배 속도로 동작하므로, 라이브 스트리밍 플랫폼에 통합하여 실시간 다국어 방송을 제공할 수 있습니다.
- AR/VR 아바타 – 가상 회의나 게임에서 실시간 아바타 더빙이 가능해지며, 모델이 사용자의 얼굴 정체성을 유지하면서 다른 언어로 말하도록 할 수 있습니다.
- 접근성 – 음성 트랙이 번역되고 화자의 입 움직임이 립리더가 이해할 수 있도록 유지되는 수화 보조 비디오를 빠르게 제작할 수 있습니다.
- 툴링 단순화 – 개발자는 별도의 음성 합성, 립싱크, 비디오 편집 모듈을 조합할 필요 없이, 하나의 API 호출만으로 전체 파이프라인을 처리할 수 있습니다.
제한 사항 및 향후 연구
- 합성 훈련 격차 – 모델이 자체 생성된 다국어 쌍으로 훈련되었지만, 발음 입 모양이 크게 다른 언어(예: 중국어와 영어)를 더빙할 때 미묘한 도메인 이동이 발생할 수 있습니다.
- 자원 요구 사항 – 기본이 되는 확산 모델은 실시간 추론을 위해 여전히 고성능 GPU가 필요하며, 엣지 디바이스용 경량 변형이 필요합니다.
- 다중 화자 시나리오 – 현재 실험은 단일 화자 클립에 초점을 맞추고 있으며, 여러 얼굴이 상호 작용하는 대화로 접근 방식을 확장하는 것은 아직 해결되지 않은 과제입니다.
- 세밀한 제어 – 시스템은 아직 더빙된 오디오의 감정 톤이나 말하기 스타일을 조정할 수 있는 조절 장치를 제공하지 않으며, 이는 창의적 응용에 유용할 수 있습니다.
향후 연구에서는 실제 다국어 더빙 데이터에 대한 도메인 적응 미세 조정을 탐구하고, 온‑디바이스 배포를 위한 모델 압축 기술 및 다인물 장면과 표현력 있는 음성 제어를 처리하기 위한 확장을 진행할 예정입니다.
저자
- Anthony Chen
- Naomi Ken Korem
- Tavi Halperin
- Matan Ben Yosef
- Urska Jelercic
- Ofir Bibi
- Or Patashnik
- Daniel Cohen‑Or
논문 정보
- arXiv ID: 2601.22143v1
- 분류: cs.GR, cs.CV
- 출판일: 2026년 1월 29일
- PDF: PDF 다운로드