[Paper] JUST-DUB-IT: Joint Audio-Visual Diffusion을 통한 비디오 더빙

발행: 1일 전 (2026년 1월 30일 오전 03:57 GMT+9)

10 min read

원문: arXiv

Source: arXiv - 2601.22143v1

개요

논문 “JUST‑DUB‑IT: Video Dubbing via Joint Audio‑Visual Diffusion” 은 단일, 기반 수준 확산 모델을 실용적인 비디오 더빙 엔진으로 전환할 수 있음을 보여준다. 경량 LoRA(Low‑Rank Adaptation) 로 모델을 파인튜닝함으로써, 저자들은 현재 더빙 도구를 장악하고 있는 복잡한 다단계 파이프라인 없이도 음성의 동시 번역과 원본 화자의 사실적인 입술 싱크를 달성한다.

주요 기여

통합 더빙 모델 – 사전 학습된 오디오‑비주얼 확산 모델을 번역, 음성 합성, 얼굴 움직임 생성까지 한 번에 수행하도록 적용.
LoRA 기반 컨디셔닝 – 기존 오디오‑비주얼 클립을 입력받아 신원을 유지하면서 더빙된 버전을 출력하도록 하는 작고 학습 가능한 LoRA를 도입.
합성 다국어 학습 데이터 – 확산 모델 자체를 사용해 다국어 비디오 클립(단일 클립 내 언어 전환)을 쌍으로 생성하고 각 절반을 인페인팅하여 비용이 많이 드는 수동 라벨링 더빙 데이터셋의 필요성을 없앰.
실제 환경 동역학에 대한 견고성 – 복잡한 머리 움직임, 조명 변화, 배경 활동이 있는 경우에도 고품질 입술 동기화를 입증.
정량적 및 지각적 향상 – 시각적 충실도, 동기화 정확도, 전체 비디오 품질 측면에서 최첨단 더빙 파이프라인 대비 측정 가능한 개선을 보여줌.

방법론

Base Model – 사운드와 비디오 프레임을 동시에 생성하도록 사전 학습된 대규모 오디오‑비주얼 디퓨전 모델에서 시작합니다.
LoRA Fine‑Tuning – 모델의 교차 모달 어텐션 레이어에 저‑랭크 어댑터(LoRA)를 추가합니다. 이 어댑터는 입력 비디오‑오디오 쌍에 조건을 부여하면서도 기본 모델의 강력한 생성 사전 지식을 활용하도록 학습됩니다.
Synthetic Paired Data Generation
- 기본 디퓨전 모델은 클립 중간에 말하는 언어를 교체하여 원본 클립의 다국어 버전을 생성합니다.
- 클립의 각 절반을 인페인팅하여 오디오는 목표 언어로 교체하고, 얼굴 영역은 새로운 음성에 맞게 재생성합니다.
- 그 결과 동일한 화자를 위한 “원본 ↔ 더빙” 비디오 쌍의 데이터셋이 자동으로 대규모 생성됩니다.
Training Loop – LoRA는 이러한 합성 쌍을 이용해 원본 오디오‑비주얼 콘텐츠를 더빙된 출력으로 매핑하는 방법을 학습하며, 화자 정체성과 움직임 단서를 보존합니다.
Inference – 테스트 시 사용자는 비디오와 목표 언어의 스크립트를 제공하면, LoRA가 강화된 디퓨전 모델이 한 번의 포워드 패스로 새로운 오디오 트랙과 동기화된 얼굴 애니메이션을 생성합니다.

결과 및 발견

Lip‑Sync Accuracy – 최고 오픈‑소스 더빙 파이프라인에 비해 입술 동기화 오류(LSE‑C 기준)를 23 % 감소시켰습니다.
Visual Fidelity – 도전적인 빠른 움직임 클립에서 구조적 유사도(SSIM)를 0.07 향상시켜 재생성된 얼굴 영역의 아티팩트가 감소했음을 나타냅니다.
Speaker Identity Preservation – 얼굴 인식 인코더를 사용한 정체성 유사도 점수가 0.92 > 로 유지되어 모델이 일반적인 “말하는 머리”로 흐려지지 않음을 보여줍니다.
Robustness Tests – 야외 조명, 가림 현상, 급격한 머리 회전 등 다양한 환경에서도 높은 동기화와 시각적 품질을 유지하며, 전통적인 방법이 종종 실패하는 상황에서도 견고함을 입증했습니다.
User Study – 50명의 참가자를 대상으로 한 블라인드 선호도 테스트에서 68 %가 가장 강력한 베이스라인보다 JUST‑DUB‑IT 출력물을 선호했으며, 그 이유로 “보다 자연스러운 입술 움직임”과 “더 명확한 음성”을 꼽았습니다.

실용적 시사점

콘텐츠 현지화 – 미디어 기업은 전 세계 출시를 위해 더빙을 자동화함으로써 비용이 많이 드는 스튜디오 재녹음 및 수동 립싱크 작업을 크게 줄일 수 있습니다.
실시간 번역 – 단일 패스 아키텍처는 단일 GPU에서 실시간의 약 2배 속도로 동작하므로, 라이브 스트리밍 플랫폼에 통합하여 실시간 다국어 방송을 제공할 수 있습니다.
AR/VR 아바타 – 가상 회의나 게임에서 실시간 아바타 더빙이 가능해지며, 모델이 사용자의 얼굴 정체성을 유지하면서 다른 언어로 말하도록 할 수 있습니다.
접근성 – 음성 트랙이 번역되고 화자의 입 움직임이 립리더가 이해할 수 있도록 유지되는 수화 보조 비디오를 빠르게 제작할 수 있습니다.
툴링 단순화 – 개발자는 별도의 음성 합성, 립싱크, 비디오 편집 모듈을 조합할 필요 없이, 하나의 API 호출만으로 전체 파이프라인을 처리할 수 있습니다.

제한 사항 및 향후 연구

합성 훈련 격차 – 모델이 자체 생성된 다국어 쌍으로 훈련되었지만, 발음 입 모양이 크게 다른 언어(예: 중국어와 영어)를 더빙할 때 미묘한 도메인 이동이 발생할 수 있습니다.
자원 요구 사항 – 기본이 되는 확산 모델은 실시간 추론을 위해 여전히 고성능 GPU가 필요하며, 엣지 디바이스용 경량 변형이 필요합니다.
다중 화자 시나리오 – 현재 실험은 단일 화자 클립에 초점을 맞추고 있으며, 여러 얼굴이 상호 작용하는 대화로 접근 방식을 확장하는 것은 아직 해결되지 않은 과제입니다.
세밀한 제어 – 시스템은 아직 더빙된 오디오의 감정 톤이나 말하기 스타일을 조정할 수 있는 조절 장치를 제공하지 않으며, 이는 창의적 응용에 유용할 수 있습니다.

향후 연구에서는 실제 다국어 더빙 데이터에 대한 도메인 적응 미세 조정을 탐구하고, 온‑디바이스 배포를 위한 모델 압축 기술 및 다인물 장면과 표현력 있는 음성 제어를 처리하기 위한 확장을 진행할 예정입니다.

저자

Anthony Chen
Naomi Ken Korem
Tavi Halperin
Matan Ben Yosef
Urska Jelercic
Ofir Bibi
Or Patashnik
Daniel Cohen‑Or

논문 정보

arXiv ID: 2601.22143v1
분류: cs.GR, cs.CV
출판일: 2026년 1월 29일
PDF: PDF 다운로드

[Paper] JUST-DUB-IT: Joint Audio-Visual Diffusion을 통한 비디오 더빙

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 원스텝 Latent-free 이미지 생성 with Pixel Mean Flows

[Paper] UEval: 통합 멀티모달 생성 벤치마크

[Paper] Routing the Lottery: 이질적 데이터에 대한 적응형 서브네트워크

[논문] PI-Light: Physics-Inspired Diffusion for Full-Image Relighting