[Paper] EditYourself: 오디오 기반 Talking Head 비디오의 생성 및 조작 with Diffusion Transformers
Source: arXiv - 2601.22127v1
개요
EditYourself은 영상 제작자들이 오랫동안 겪어온 문제를 해결합니다: 기존 토킹‑헤드 클립에서 말을 다시 촬영하거나 화질을 희생하지 않고도 대사를 바꾸는 방법. 확산 기반 비디오 생성과 오디오 컨디셔닝, 트랜스포머 백본을 결합함으로써, 저자들은 원본 움직임, 정체성, 입술 싱크를 유지하면서 말하기를 추가, 삭제, 혹은 재타임할 수 있는 시스템을 제공합니다.
Key Contributions
- Audio‑driven video‑to‑video editing: 일반 목적 비디오 확산 모델(DiT)을 원시 오디오를 조건 신호로 받아들일 수 있도록 확장하여 기존 영상에 대한 전사 수준의 편집을 가능하게 함.
- Region‑aware spatiotemporal inpainting: 입과 얼굴 영역에 확산 과정을 집중시키는 편집 마스크를 도입하여, 변형되지 않은 영역을 보존하고 시간적 일관성을 보장함.
- Edit‑focused training regime: 합성 “편집” 시나리오(음성 삽입, 삭제, 재타이밍)를 확산 훈련 세트에 추가함으로써 모델이 실제 후반 작업 흐름을 다루도록 학습시킴.
- Long‑duration identity consistency: 몇 초에 이르는 클립에서도 화자 정체성과 움직임이 안정적으로 유지됨을 보여주며, 기존 단편 생성기 대비 눈에 띄는 향상임.
- Open‑source implementation & API prototype: 바로 사용할 수 있는 Python 패키지와 경량 REST 엔드포인트를 제공하여 기존 파이프라인에 통합하는 장벽을 낮춤.
방법론
-
Base Model – DiT (Diffusion Transformer)
- 잠재 공간에서 비디오 프레임을 예측하는 transformer‑기반 diffusion 모델로, 대규모 talking‑head 데이터셋으로 학습되었습니다.
-
Audio Conditioning
- 원시 파형을 사전 학습된 오디오 인코더(e.g., wav2vec‑2.0)를 통해 전달하여 시간 정렬된 임베딩을 생성합니다.
- 해당 임베딩을 cross‑attention을 통해 모든 diffusion 타임스텝에 주입하여 시각 합성을 원하는 음소 쪽으로 안내합니다.
-
Edit Mask Generation
- 사용자는 전사 편집(예: “‘hello’를 ‘welcome’로 교체”)을 제공합니다.
- 자동 정렬 단계가 새로운 전사를 타임스탬프에 매핑하여, 영향을 받는 프레임의 입술 영역을 덮는 이진 마스크를 생성합니다.
-
Spatiotemporal Inpainting
- diffusion 과정은 마스크된 영역에서만 실행되고, 나머지 비디오는 조건 신호로 유지됩니다.
- 시간적 attention 윈도우가 생성된 프레임이 주변 컨텍스트와 부드럽게 블렌딩되도록 보장합니다.
-
Training Augmentation
- 합성 편집을 실시간으로 생성(오디오를 무작위로 삽입, 삭제, 혹은 늘리기)하고, 모델은 결과 비디오를 복원하도록 학습되어 실제 편집 작업을 처리하는 방법을 학습합니다.
결과 및 발견
| 지표 | 기준 (DiT 오디오 없음) | EditYourself |
|---|---|---|
| Lip‑Sync Error (LSE‑C) ↓ | 0.42 | 0.18 |
| Identity Preservation (ID‑Score ↑) | 0.71 | 0.89 |
| Temporal Consistency (FVD ↓) | 112 | 68 |
| User Study (Mean Opinion Score, 1‑5) | 3.2 | 4.3 |
- Lip‑sync는 오디오‑조건부 교차‑주의 덕분에 약 57 % 향상되었습니다.
- Identity drift가 5초 클립에서 거의 감지되지 않을 정도로 감소하여, “불안함” 없이 긴 편집이 가능합니다.
- Qualitative 예시에서는 새로운 문장의 매끄러운 삽입, 불필요한 단어 제거, 그리고 일시정지의 부드러운 재타이밍이 배경 조명과 머리 자세를 유지하면서 보여집니다.
실용적 함의
- 포스트‑프로덕션 파이프라인: 편집자는 이제 스크립트 오류를 수정하고, 콘텐츠를 현지화하거나, 비용이 많이 드는 재촬영 없이 다국어 버전을 만들 수 있습니다.
- 라이브‑스트림 보강: 실시간 오디오 피드를 사용해 발음 오류를 바로잡거나 욕설을 즉시 검열할 수 있습니다.
- e‑러닝 및 기업 교육: 원본 발표자의 존재감을 유지하면서 녹화된 강의의 오래된 내레이션을 업데이트합니다.
- 접근성 도구: 다른 언어의 오디오 트랙으로 교체하여 수화 오버레이나 입술 읽기 가능한 영상을 생성합니다.
- SDK 통합: 제공된 파이썬 패키지는 기존 비디오 처리 스택(예: FFmpeg 기반 워크플로) 에 단일 API 호출만으로 삽입할 수 있습니다:
edit_video(input.mp4, new_transcript, audio.wav)
Limitations & Future Work
- Domain specificity: 모델은 주로 정면이고 조명이 좋은 토킹‑헤드 데이터셋으로 학습되었으며; 극단적인 각도, 심한 가림, 혹은 저해상도 영상에서는 성능이 저하됩니다.
- Audio quality dependence: 잡음이 많거나 크게 울리는 오디오에서는 립‑싱크 정확도가 감소합니다; 향후 작업에서는 강인한 오디오 인코더와 노이즈 제거 프론트‑엔드를 탐구할 예정입니다.
- Edit length: 5‑초 편집은 안정적이지만, 10 초 이상 삽입에서는 약간의 정체성 변이가 나타나 계층적 시간 모델링이 필요함을 시사합니다.
- Real‑time constraints: 현재 추론은 단일 A100 GPU에서 약 2 fps로 실행됩니다; 확산 스케줄을 최적화하거나 증류를 활용하면 시스템을 실시간 편집 속도에 더 가깝게 만들 수 있습니다.
EditYourself는 생성 비디오 모델을 일상적인 비디오 편집을 위한 실용적인 도구로 만드는 구체적인 단계이며, 보다 유연하고 AI‑보강된 후반 작업 워크플로우의 문을 엽니다.
저자
- John Flynn
- Wolfgang Paier
- Dimitar Dinev
- Sam Nhut Nguyen
- Hayk Poghosyan
- Manuel Toribio
- Sandipan Banerjee
- Guy Gafni
논문 정보
- arXiv ID: 2601.22127v1
- 분류: cs.CV, cs.GR, cs.LG, cs.MM
- 발표일: 2026년 1월 29일
- PDF: PDF 다운로드