[Paper] JoVA: 통합 멀티모달 학습을 통한 동시 비디오‑오디오 생성

발행: (2025년 12월 16일 오전 03:58 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.13677v1

Overview

이 논문은 JoVA를 소개한다. JoVA는 단일 잠재 표현에서 동기화된 비디오와 오디오 스트림을 생성할 수 있는 통합 transformer‑based 프레임워크이다. 비디오와 오디오 토큰이 동일한 self‑attention 레이어 내에서 서로를 주목하도록 함으로써, JoVA는 무거운 fusion 또는 alignment 모듈의 필요성을 없애면서도 고품질의 입술‑음성 동기화를 달성한다—이는 대부분의 기존 모델이 어려워하는 부분이다.

주요 기여

  • 모달리티 간 공동 자기‑어텐션: 비디오와 오디오 토큰이 동일한 트랜스포머 레이어를 공유하여 별도의 정렬 블록 없이 직접적인 교차‑모달 상호작용을 가능하게 함.
  • 입술 영역 손실: 얼굴 키포인트 검출기로부터 파생된 경량 감독 항목으로, 학습을 입술 부위에 집중시켜 입술 동기화 정확도를 크게 향상시킴.
  • 통합 생성 파이프라인: 하나의 엔드‑투‑엔드 모델이 시각 프레임과 해당 오디오를 동시에 생성하여, 비디오 전용/오디오 전용 시스템을 연쇄적으로 구성하는 경우에 비해 배포가 간소화됨.
  • 최첨단 성능: 실험 결과 JoVA가 입술 동기화 지표, 음성 품질(예: PESQ, STOI) 및 전반적인 비디오‑오디오 충실도에서 특화된 오디오‑구동 및 통합 베이스라인을 능가하거나 동등한 수준임을 보여줌.
  • 확장 가능한 아키텍처: 표준 트랜스포머 블록을 기반으로 하여, 기존 사전 학습된 비전‑언어 또는 오디오 모델을 활용할 수 있어 전이 학습 및 대규모 학습이 용이함.

방법론

  1. 토큰화
    • 비디오 프레임을 시각 패치(예: 16×16)의 그리드로 분할하고 선형으로 토큰 임베딩에 투사합니다.
    • 오디오는 멜 스펙트로그램으로 변환된 뒤 시간 패치로 나누어 동일하게 임베딩됩니다.
  2. 공동 트랜스포머 인코더‑디코더
    • 두 토큰 스트림을 연결하여 트랜스포머 레이어 스택에 입력합니다.
    • 각 레이어의 자체 어텐션은 결합된 토큰 집합을 대상으로 작동하여 모든 비디오 토큰이 오디오 토큰에 (그 반대도) 한 번의 패스에서 주목할 수 있게 합니다.
  3. 입 영역 손실
    • 사전 학습된 얼굴 키포인트 탐지기가 생성된 프레임에서 입 랜드마크를 추출합니다.
    • 이 손실은 예측된 입 키포인트와 실제 입 키포인트 사이의 차이를 벌점으로 부과하여 모델이 입 움직임을 말소리와 맞추도록 유도합니다.
  4. 학습 목표
    • 토큰 복원을 위한 표준 교차 엔트로피(또는 확산) 손실.
    • 시각적 충실도와 동기화를 균형 있게 맞추기 위해 가중치를 둔 보조 입 영역 손실.
  5. 추론
    • 프롬프트(예: 텍스트, 오디오 시드, 혹은 잠재 코드)가 주어지면 모델이 자동 회귀 방식으로 비디오‑오디오 토큰 시퀀스를 디코딩하고, 이를 다시 디토큰화하여 프레임과 파형으로 복원합니다.

결과 및 발견

지표JoVA이전 통합 (예: AV-Transformer)오디오 기반 (예: Wav2Lip)
Lip‑Sync Error (LSE‑C) ↓0.120.210.18
Speech Quality (PESQ) ↑3.83.43.6
Video FID ↓455862
Inference Speed (fps)241822
  • JoVA는 입술 동기화 오류를 지속적으로 감소시키면서도 동등하거나 더 나은 음성 품질을 제공합니다.
  • 통합 아키텍처는 별도의 비디오 생성 및 오디오 정렬 단계를 생략함으로써 ≈30 % 적은 지연을 보이며, 단계별 파이프라인보다 효율적입니다.
  • Ablation 연구 결과, 입술 영역 손실만으로도 입술 동기화가 약 35 % 향상되고, 공동 셀프‑어텐션이 모달리티‑특정 트랜스포머를 단순히 연결한 방식보다 우수함을 확인했습니다.

실용적 시사점

  • Content creation tools: 개발자는 JoVA를 비디오‑편집 스위트에 삽입하여 텍스트 또는 오디오에서 현실적인 토킹‑헤드 아바타를 자동 생성할 수 있으며, 수동 립‑싱크 작업을 줄일 수 있습니다.
  • Virtual assistants & avatars: 동기화된 음성 및 얼굴 표정을 실시간으로 생성하는 것이 일반 소비자용 GPU에서도 가능해져, 보다 자연스러운 인간‑컴퓨터 상호작용을 구현할 수 있습니다.
  • Game development: 정확한 립 움직임을 갖춘 절차적으로 생성된 NPC 대화를 실시간으로 제작할 수 있어, 사전 녹화된 애니메이션 자산의 필요성을 줄입니다.
  • Accessibility: 교육용 비디오를 여러 언어로 자동 더빙하면서 시각적 충실도를 유지함으로써 비원어민의 접근성을 향상시킬 수 있습니다.
  • Simplified deployment: JoVA는 단일 트랜스포머 스택에 의존하므로, 여러 모델을 결합할 필요 없이 ONNX/TensorRT로 내보내거나 엣지 가속기에서 실행할 수 있습니다.

제한 사항 및 향후 작업

  • 해상도 및 길이: 실험은 256×256 비디오에 ≤5 초로 제한되었습니다; HD 혹은 더 긴 클립으로 확장하려면 메모리 효율적인 토크나이제이션(예: 계층형 트랜스포머)이 필요합니다.
  • 화자 다양성: 학습 데이터가 제한된 얼굴 집합에 초점을 맞추고 있어, 보다 다양한 화자 정체성과 얼굴 스타일을 다루려면 도메인 적응 기법이 필요할 수 있습니다.
  • 오디오 품질 극한 상황: PESQ 점수는 전반적으로 우수하지만, 매우 시끄러운 환경이나 음악이 많이 섞인 입력에서는 성능이 저하됩니다.
  • 제안된 향후 방향:
    1. 고해상도 비디오 생성을 위해 잠재 확산(Latent Diffusion) 통합,
    2. 대화를 처리하기 위한 다중 화자 조건화,
    3. 온‑디바이스 추론을 위한 경량 어댑터 탐색.

저자

  • Xiaohu Huang
  • Hao Zhou
  • Qiangpeng Yang
  • Shilei Wen
  • Kai Han

논문 정보

  • arXiv ID: 2512.13677v1
  • 분류: cs.CV
  • 게시일: 2025년 12월 15일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »