[Paper] JUST-DUB-IT: Joint Audio-Visual Diffusion을 통한 비디오 더빙

발행: (2026년 1월 30일 오전 03:57 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2601.22143v1

개요

논문 “JUST‑DUB‑IT: Video Dubbing via Joint Audio‑Visual Diffusion” 은 단일, 기반 수준 확산 모델을 실용적인 비디오 더빙 엔진으로 전환할 수 있음을 보여준다. 경량 LoRA(Low‑Rank Adaptation) 로 모델을 파인튜닝함으로써, 저자들은 현재 더빙 도구를 장악하고 있는 복잡한 다단계 파이프라인 없이도 음성의 동시 번역과 원본 화자의 사실적인 입술 싱크를 달성한다.

주요 기여

  • 통합 더빙 모델 – 사전 학습된 오디오‑비주얼 확산 모델을 번역, 음성 합성, 얼굴 움직임 생성까지 한 번에 수행하도록 적용.
  • LoRA 기반 컨디셔닝 – 기존 오디오‑비주얼 클립을 입력받아 신원을 유지하면서 더빙된 버전을 출력하도록 하는 작고 학습 가능한 LoRA를 도입.
  • 합성 다국어 학습 데이터 – 확산 모델 자체를 사용해 다국어 비디오 클립(단일 클립 내 언어 전환)을 쌍으로 생성하고 각 절반을 인페인팅하여 비용이 많이 드는 수동 라벨링 더빙 데이터셋의 필요성을 없앰.
  • 실제 환경 동역학에 대한 견고성 – 복잡한 머리 움직임, 조명 변화, 배경 활동이 있는 경우에도 고품질 입술 동기화를 입증.
  • 정량적 및 지각적 향상 – 시각적 충실도, 동기화 정확도, 전체 비디오 품질 측면에서 최첨단 더빙 파이프라인 대비 측정 가능한 개선을 보여줌.

방법론

  1. Base Model – 사운드와 비디오 프레임을 동시에 생성하도록 사전 학습된 대규모 오디오‑비주얼 디퓨전 모델에서 시작합니다.
  2. LoRA Fine‑Tuning – 모델의 교차 모달 어텐션 레이어에 저‑랭크 어댑터(LoRA)를 추가합니다. 이 어댑터는 입력 비디오‑오디오 쌍에 조건을 부여하면서도 기본 모델의 강력한 생성 사전 지식을 활용하도록 학습됩니다.
  3. Synthetic Paired Data Generation
    • 기본 디퓨전 모델은 클립 중간에 말하는 언어를 교체하여 원본 클립의 다국어 버전을 생성합니다.
    • 클립의 각 절반을 인페인팅하여 오디오는 목표 언어로 교체하고, 얼굴 영역은 새로운 음성에 맞게 재생성합니다.
    • 그 결과 동일한 화자를 위한 “원본 ↔ 더빙” 비디오 쌍의 데이터셋이 자동으로 대규모 생성됩니다.
  4. Training Loop – LoRA는 이러한 합성 쌍을 이용해 원본 오디오‑비주얼 콘텐츠를 더빙된 출력으로 매핑하는 방법을 학습하며, 화자 정체성과 움직임 단서를 보존합니다.
  5. Inference – 테스트 시 사용자는 비디오와 목표 언어의 스크립트를 제공하면, LoRA가 강화된 디퓨전 모델이 한 번의 포워드 패스로 새로운 오디오 트랙과 동기화된 얼굴 애니메이션을 생성합니다.

결과 및 발견

  • Lip‑Sync Accuracy – 최고 오픈‑소스 더빙 파이프라인에 비해 입술 동기화 오류(LSE‑C 기준)를 23 % 감소시켰습니다.
  • Visual Fidelity – 도전적인 빠른 움직임 클립에서 구조적 유사도(SSIM)를 0.07 향상시켜 재생성된 얼굴 영역의 아티팩트가 감소했음을 나타냅니다.
  • Speaker Identity Preservation – 얼굴 인식 인코더를 사용한 정체성 유사도 점수가 0.92 > 로 유지되어 모델이 일반적인 “말하는 머리”로 흐려지지 않음을 보여줍니다.
  • Robustness Tests – 야외 조명, 가림 현상, 급격한 머리 회전 등 다양한 환경에서도 높은 동기화와 시각적 품질을 유지하며, 전통적인 방법이 종종 실패하는 상황에서도 견고함을 입증했습니다.
  • User Study – 50명의 참가자를 대상으로 한 블라인드 선호도 테스트에서 68 %가 가장 강력한 베이스라인보다 JUST‑DUB‑IT 출력물을 선호했으며, 그 이유로 “보다 자연스러운 입술 움직임”과 “더 명확한 음성”을 꼽았습니다.

실용적 시사점

  • 콘텐츠 현지화 – 미디어 기업은 전 세계 출시를 위해 더빙을 자동화함으로써 비용이 많이 드는 스튜디오 재녹음 및 수동 립싱크 작업을 크게 줄일 수 있습니다.
  • 실시간 번역 – 단일 패스 아키텍처는 단일 GPU에서 실시간의 약 2배 속도로 동작하므로, 라이브 스트리밍 플랫폼에 통합하여 실시간 다국어 방송을 제공할 수 있습니다.
  • AR/VR 아바타 – 가상 회의나 게임에서 실시간 아바타 더빙이 가능해지며, 모델이 사용자의 얼굴 정체성을 유지하면서 다른 언어로 말하도록 할 수 있습니다.
  • 접근성 – 음성 트랙이 번역되고 화자의 입 움직임이 립리더가 이해할 수 있도록 유지되는 수화 보조 비디오를 빠르게 제작할 수 있습니다.
  • 툴링 단순화 – 개발자는 별도의 음성 합성, 립싱크, 비디오 편집 모듈을 조합할 필요 없이, 하나의 API 호출만으로 전체 파이프라인을 처리할 수 있습니다.

제한 사항 및 향후 연구

  • 합성 훈련 격차 – 모델이 자체 생성된 다국어 쌍으로 훈련되었지만, 발음 입 모양이 크게 다른 언어(예: 중국어와 영어)를 더빙할 때 미묘한 도메인 이동이 발생할 수 있습니다.
  • 자원 요구 사항 – 기본이 되는 확산 모델은 실시간 추론을 위해 여전히 고성능 GPU가 필요하며, 엣지 디바이스용 경량 변형이 필요합니다.
  • 다중 화자 시나리오 – 현재 실험은 단일 화자 클립에 초점을 맞추고 있으며, 여러 얼굴이 상호 작용하는 대화로 접근 방식을 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 세밀한 제어 – 시스템은 아직 더빙된 오디오의 감정 톤이나 말하기 스타일을 조정할 수 있는 조절 장치를 제공하지 않으며, 이는 창의적 응용에 유용할 수 있습니다.

향후 연구에서는 실제 다국어 더빙 데이터에 대한 도메인 적응 미세 조정을 탐구하고, 온‑디바이스 배포를 위한 모델 압축 기술 및 다인물 장면과 표현력 있는 음성 제어를 처리하기 위한 확장을 진행할 예정입니다.

저자

  • Anthony Chen
  • Naomi Ken Korem
  • Tavi Halperin
  • Matan Ben Yosef
  • Urska Jelercic
  • Ofir Bibi
  • Or Patashnik
  • Daniel Cohen‑Or

논문 정보

  • arXiv ID: 2601.22143v1
  • 분류: cs.GR, cs.CV
  • 출판일: 2026년 1월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] UEval: 통합 멀티모달 생성 벤치마크

우리는 UEval이라는 벤치마크를 도입합니다. 이는 이미지와 텍스트를 모두 생성할 수 있는 통합 모델을 평가하기 위한 것입니다. UEval은 1,000개의 전문가가 선정한 질문으로 구성됩니다.