[Paper] Klear: 통합 멀티태스크 오디오-비디오 공동 생성

발행: (2026년 1월 8일 오전 03:03 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.04151v1

Overview

이 논문은 Klear라는 통합 프레임워크를 제시한다. 이 프레임워크는 동기화된 오디오‑비디오 콘텐츠를 생성할 수 있을 뿐만 아니라 단일 모달리티 작업(오디오 전용 또는 비디오 전용)도 처리한다. 모델 아키텍처, 학습 파이프라인, 데이터 수집 과정을 재설계함으로써, 저자들은 입술‑음성 정렬을 긴밀히 맞추고, 높은 시각적 충실도와 강력한 일반화를 달성했으며, 기존 생성 시스템에서 오래 지속돼 온 비동기 및 단일 모달 저하 문제를 해결한다.

주요 기여

  • Single‑tower architecture와 통합된 DiT (Diffusion Transformer) 블록, 그리고 Omni‑Full Attention 메커니즘을 사용하여 오디오, 비디오, 텍스트를 동시에 처리함으로써 긴밀한 교차‑모달 정렬을 가능하게 함.
  • Progressive multitask training으로 모달리티를 무작위로 마스킹하고 다단계 커리큘럼을 따름으로써 단일 모달 붕괴를 방지하고 견고한 오디오‑비주얼 세계 지식을 촉진함.
  • 대규모 dense‑caption 데이터셋(동종 최초) 구축: 자동 파이프라인을 통해 수백만 개의 오디오‑비디오‑캡션 삼중항을 엄격한 시간 정렬과 함께 주석 달고 필터링함.
  • state‑of‑the‑art 성능을 다양한 작업군(공동 생성, 오디오 전용 합성, 비디오 전용 합성, 명령 수행)에서 입증했으며, Veo 3와 같은 독점 시스템에 필적하는 결과를 달성함.
  • 통합 어텐션 및 디퓨전 백본 덕분에 추론 속도를 희생하지 않고 방대한 데이터셋으로 학습할 수 있는 확장 가능한 설계.

방법론

  1. 모델 설계 – Klear는 오디오, 비디오 프레임, 텍스트 프롬프트를 하나의 토큰 시퀀스로 취급합니다. DiT 블록(확산‑스타일 트랜스포머)은 Omni‑Full Attention을 사용해 각 레이어에서 모든 모달리티에 걸친 전체 자기‑어텐션을 계산하므로, 오디오 신호가 비디오 생성(예: 입 움직임)에 직접 영향을 주고 그 반대도 가능합니다.
  2. 학습 체계
    • 무작위 모달리티 마스킹: 각 학습 단계에서 하나 이상의 모달리티를 마스킹하여, 모델이 남은 신호만으로 누락된 부분을 복원하도록 강제합니다. 이를 통해 단일 모델이 다중 모달리티와 단일 모달리티 모두를 생성할 수 있게 됩니다.
    • 커리큘럼 단계: 학습은 쉬운 예시(고품질, 정렬이 잘 된 클립)에서 시작해 점차 어려운 예시(노이즈가 많거나 분포 외 데이터)로 진행되며, 모델의 강인성을 점진적으로 확장합니다.
  3. 데이터 정제 – 자동화된 파이프라인이 공개 비디오 플랫폼에서 데이터를 수집하고, 음성‑텍스트 변환 및 시각 캡셔닝 모델을 실행한 뒤, 엄격한 시간 정렬 검사와 품질 필터를 적용합니다. 그 결과 밀집 캡션(각 짧은 비디오 구간에 대한 문장 수준 설명)을 포함한 다중 모달 데이터셋이 구축되어, 의미적 측면과 타이밍 측면 모두에 대한 풍부한 감독 신호를 제공합니다.

결과 및 발견

  • Audio‑Video Synchrony: 측정된 입술 읽기 오류율이 기존 오픈‑소스 베이스라인 대비 >30 % 감소하여 인간 수준에 가까운 정렬을 보여줍니다.
  • Visual Fidelity: FID 점수가 표준 비디오 합성 벤치마크에서 0.12 향상되었으며, 얼굴 표정과 같은 세밀한 디테일을 유지합니다.
  • Instruction Following: 새롭게 도입된 멀티모달 지시 벤치마크에서 Klear는 기존 최고의 오픈 모델보다 45 % 높은 성공률을 기록했으며, 상용 Veo 3 시스템과 동등한 성능을 보입니다.
  • Generalization: 애니메이션 만화, 저조도 영상 등 분포 외 도메인에서 평가했을 때 Klear는 인‑도메인 성능의 >80 %를 유지하여 커리큘럼 및 대규모 데이터의 효과를 입증합니다.

실용적 시사점

  • Content Creation Pipelines: 개발자는 Klear를 비디오 편집 도구에 통합하여 자동으로 동기화된 보이스오버를 생성하거나 수동 립싱크 작업 없이 기존 영상을 더빙할 수 있습니다.
  • Interactive Media & Games: 실시간으로 캐릭터 음성 및 얼굴 애니메이션을 생성할 수 있어 사전 녹음된 자산이 필요 없으며 동적인 NPC 대화를 구현할 수 있습니다.
  • Accessibility: 오디오 또는 자막이 있는 비디오에서 자동으로 수화 비디오를 생성함으로써 접근성 서비스를 향상시킬 수 있습니다.
  • Multimodal Assistants: 음성 기반 에이전트가 즉석에서 짧은 설명 영상을 제작할 수 있으며, 하나의 모델로 오디오 내레이션과 시각적 일러스트레이션을 모두 처리합니다.
  • Scalable Training: 통합된 아키텍처와 데이터 파이프라인은 별도의 오디오 및 비디오 네트워크를 결합하지 않고도 대규모 멀티모달 생성 모델을 구축하려는 다른 팀에게 청사진을 제공합니다.

제한 사항 및 향후 작업

  • Compute Requirements: Klear 훈련은 여전히 다중 GPU 클러스터와 많은 diffusion 단계가 필요하여 소규모 연구실에 부담이 될 수 있습니다.
  • Dataset Bias: 데이터 파이프라인이 품질을 필터링하지만, 원본 비디오는 문화적·언어적 편향을 내포하고 있어 생성 공정성에 영향을 줄 수 있습니다.
  • Temporal Resolution: 매우 빠른 말이나 급격한 장면 전환은 여전히 작은 정렬 오류를 일으킬 수 있으며, 보다 세밀한 시간 모델링이 과제로 남아 있습니다.
  • Future Directions: 저자들은 보다 효율적인 diffusion 샘플러 탐색, 더 정밀한 입술 싱크를 위한 명시적 phoneme‑to‑viseme 매핑 도입, 그리고 dense‑caption 데이터셋을 확장해 더 많은 언어와 분야를 포괄할 것을 제안합니다.

저자

  • Jun Wang
  • Chunyu Qiang
  • Yuxin Guo
  • Yiran Wang
  • Xijuan Zeng
  • Chen Zhang
  • Pengfei Wan

논문 정보

  • arXiv ID: 2601.04151v1
  • 카테고리: cs.CV, cs.AI, cs.MM, cs.SD
  • 출판일: 2026년 1월 7일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »