[Paper] 인페인팅에서 에디팅까지: 컨텍스트가 풍부한 비주얼 더빙을 위한 Self-Bootstrapping Framework

발행: (2026년 1월 1일 오전 03:58 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.25066v1

개요

이 논문은 오디오‑드리븐 비주얼 더빙을 다룹니다 – 비디오의 입 움직임을 새로운 음성 트랙에 자동으로 동기화하는 작업입니다.
모델이 누락된 픽셀을 추측해야 하는 위험한 “인페인팅” 작업으로 문제를 다루는 대신, 저자들은 확산 기반 생성기로 완벽한 학습 쌍을 먼저 생성함으로써 조건이 잘 갖춰진 비디오‑투‑비디오 편집 문제로 전환합니다. 이 전환은 입술 동기화를 훨씬 더 깔끔하게 만들고, 화자의 정체성을 보존하며, 실제 세계의 다양한 영상에서도 견고하게 작동합니다.

Key Contributions

  • Self‑bootstrapping pipeline: Diffusion Transformer (DiT)를 사용하여 실제 샘플마다 입술이 변형된 보조 비디오를 합성하고, 감독 학습을 위한 이상적인 쌍 데이터셋을 생성합니다.
  • Audio‑driven DiT editor: 생성된 쌍을 이용해 두 번째 DiT 모델을 학습시켜, 전체 시각적 컨텍스트를 유지하면서 정확한 입술 변형에만 집중하도록 합니다.
  • Timestep‑adaptive multi‑phase learning: 확산 타임스텝 전반에 걸쳐 상충되는 편집 목표를 분리하는 새로운 학습 스케줄로, 학습을 안정화하고 동기화 정확도를 향상시킵니다.
  • ContextDubBench: 다양한 언어, 조명, 가림 현상, 머리 자세 등 도전적인 더빙 시나리오를 포괄하는 새로운 벤치마크로, 엄격한 평가를 제공합니다.
  • State‑of‑the‑art results: 기존 마스크 인페인팅 방법에 비해 뛰어난 입술 동기화 정확도, 정체성 보존 및 시각적 품질을 보여줍니다.

Methodology

  1. Data Generation (Bootstrapping)

    • 실제 비디오 클립과 원본 오디오로 시작합니다.
    • 해당 클립을 합성 오디오 트랙(목표 더빙 음성)에 조건화된 Diffusion Transformer generator에 입력합니다.
    • 생성기는 같은 클립의 입술이 변형된 버전을 생성하면서 얼굴 정체성, 배경, 조명 등 나머지 요소는 그대로 유지합니다.
    • 출력과 원본 클립은 완벽히 정렬된 학습 쌍을 형성합니다: source videotarget video.
  2. Audio‑Driven Editing Model

    • 두 번째 DiT‑based editor전체 소스 프레임(마스크 없음)과 새로운 오디오를 받습니다.
    • 입력에 이미 모든 시각적 단서가 포함되어 있기 때문에, 모델은 입술 영역만 오디오에 맞게 편집하면 되며 다른 부분을 환상적으로 생성할 필요가 없습니다.
    • 편집기는 합성 쌍에 대해 엔드‑투‑엔드로 학습되어 “원본 비디오 + 새로운 음성” → “더빙된 비디오”라는 직접적인 매핑을 배웁니다.
  3. Multi‑Phase Diffusion Training

    • 확산 모델은 타임스텝을 따라 노이즈가 섞인 잠재 표현을 점진적으로 디노이즈합니다.
    • 초기 타임스텝에서는 거친 구조적 변화를, 후기 타임스텝에서는 세밀한 텍스처 편집을 요구합니다.
    • 저자들은 각 단계에서 서로 다른 손실 가중치와 학습률을 적용하는 timestep‑adaptive schedule을 도입하여 전역 일관성(정체성, 포즈)과 정확한 입술 움직임을 분리하고, 이를 통해 학습을 안정화합니다.
  4. Evaluation (ContextDubBench)

    • 벤치마크는 12개의 실제 더빙 과제(예: 극단적인 머리 회전, 저조도, 다중 화자)를 포괄하는 1,200개의 클립을 포함합니다.
    • 평가 지표에는 Lip‑Sync Error (LSE‑C), Identity Similarity (ArcFace), 그리고 지각적 비디오 품질(LPIPS, FVD)이 포함됩니다.

결과 및 발견

지표 (낮을수록 좋음)기존 인페인팅 방법제안된 셀프‑부트스트래핑
LSE‑C (Lip‑Sync Error)0.420.18
Identity Similarity (높을수록 좋음)0.710.89
LPIPS (perceptual distortion)0.270.12
FVD (video realism)21578
  • Lip synchronization이 평균 >55 % 향상되었습니다.
  • Identity drift가 사실상 사라졌으며, 편집된 얼굴은 극단적인 포즈 변화에서도 원본 인물의 특징을 유지합니다.
  • Robustness: 모델은 저해상도, 노이즈가 많은, 다중 인물 장면에서도 마스크‑인페인팅이 일반적으로 실패하는 경우 품질을 유지합니다.
  • Ablation studies 결과 (i) 합성 페어 데이터, (ii) 전체 프레임 조건화, (iii) 다단계 스케줄이 각각 최종 성능 향상에 크게 기여함을 확인했습니다.

실용적 시사점

  • 콘텐츠 현지화: 스튜디오는 영화, TV 프로그램 또는 짧은 동영상을 훨씬 적은 수동 보정으로 더빙할 수 있으며, 배우의 외모를 보존하고 불쾌한 인공 흔적을 피할 수 있습니다.
  • 실시간 애플리케이션: 편집기가 마스크된 패치가 아닌 전체 프레임에서 작동하기 때문에, 낮은 지연 시간이 중요한 스트리밍 파이프라인(예: 웨비나 실시간 번역)에 통합될 수 있습니다.
  • AR/VR 아바타: 대화형 아바타를 구축하는 개발자는 이 프레임워크를 활용해 합성 음성을 사용자의 얼굴 비디오와 동기화함으로써 일관된 정체성과 높은 시각적 충실도를 보장할 수 있습니다.
  • 접근성 도구: 청각 장애인을 위한 자동 더빙(예: 수화 오버레이)을 이 기술과 결합하면 시각적 서사를 일관되게 유지할 수 있습니다.
  • 데이터셋 생성: 자체 부트스트래핑 접근 방식을 재활용하여 비용이 많이 드는 수동 주석 없이도 다른 비디오 편집 작업(예: 표정 전이, 스타일 적용)을 위한 쌍으로 된 학습 데이터를 만들 수 있습니다.

제한 사항 및 향후 작업

  • Synthetic Training Gap: 비록 생성된 쌍은 시각적으로 정렬되지만, 여전히 합성 데이터이며, 극히 고해상도 영화 영상을 더빙할 때 미묘한 도메인 차이가 나타날 수 있습니다.
  • Audio Quality Dependency: 편집기는 깨끗하고 시간 정렬된 오디오 트랙을 전제로 합니다; 잡음이 있거나 정렬이 맞지 않는 음성은 동기 정확도를 저하시킬 수 있습니다.
  • Computational Cost: 두 개의 diffusion transformer(생성기 + 편집기)를 학습하려면 상당한 GPU 자원이 필요하며, 이는 소규모 팀의 도입을 제한할 수 있습니다.
  • Future Directions:
    • domain adaptation 기술을 조사하여 4K 콘텐츠의 합성‑실제 격차를 메우기.
    • 여러 얼굴이 조정된 입 움직임 편집을 필요로 하는 multi‑speaker 더빙으로 프레임워크 확장.
    • 온‑디바이스 실시간 더빙을 위한 lightweight inference 변형(예: 지식 증류) 탐색.

Bottom line: 시각적 더빙을 잘 정의된 비디오 편집 문제로 전환하고, diffusion 모델을 사용해 완벽한 학습 쌍을 생성하고 편집을 수행함으로써, 저자들은 입술 싱크, 정체성 보존, 견고성을 크게 향상시키는 시스템을 제공한다—이는 개발자와 미디어 제작자 모두에게 실용적이고 고품질의 더빙 솔루션을 열어준다.

저자

  • Xu He
  • Haoxian Zhang
  • Hejia Chen
  • Changyuan Zheng
  • Liyang Chen
  • Songlin Tang
  • Jiehui Huang
  • Xiaoqiang Liu
  • Pengfei Wan
  • Zhiyong Wu

논문 정보

  • arXiv ID: 2512.25066v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 31일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »