[Paper] LTX-2: 효율적인 통합 오디오-비주얼 파운데이션 모델
Source: arXiv - 2601.03233v1
개요
LTX‑2는 오픈소스이며 대규모 기반 모델로, 단일 텍스트 프롬프트만으로 동기화된 비디오와 오디오를 생성할 수 있습니다. 14 B 파라미터 비디오 트랜스포머와 5 B 파라미터 오디오 트랜스포머를 교차‑어텐션으로 결합함으로써, 시스템은 사운드트랙이 등장인물, 분위기, 감정에 맞춰 움직이는 영화 수준의 클립을 만들어냅니다—이는 현재의 텍스트‑투‑비디오 디퓨전 모델에서는 찾아볼 수 없는 기능입니다.
주요 기여
- 통합 시청각 확산 아키텍처: 비대칭 이중‑스트림 트랜스포머(비디오 ≫ 오디오)와 양방향 교차‑어텐션 및 공유 타임스텝 컨디셔닝을 연결.
- 모달리티 인식 분류기‑프리 가이드(modality‑CFG): 사용자가 시각 충실도와 오디오 충실도를 실시간으로 조절할 수 있게 함.
- 다국어 텍스트 인코더: 프롬프트 이해를 영어를 넘어 확장.
- 효율적인 학습 및 추론: 독점 시스템 대비 적은 연산 비용으로 최첨단 품질을 달성.
- 오픈‑소스 공개: 전체 모델 가중치, 학습 스크립트, 그리고 추론 파이프라인을 공개.
Methodology
- Dual‑stream transformer – 두 개의 별도 트랜스포머 스택이 비디오와 오디오 토큰을 각각 처리합니다. 비디오 스트림(14 B 파라미터)은 시각 생성이 더 많은 연산을 요구하기 때문에 대부분의 용량을 차지하고, 오디오 스트림(5 B)은 고품질 사운드에 집중합니다.
- Cross‑modal attention – 각 디퓨전 타임스텝에서 비디오 토큰은 오디오 토큰에, 오디오 토큰은 비디오 토큰에 어텐션을 수행하여 입술 움직임, 환경 소리, 음악적 단서가 정렬되도록 합니다. 시간 위치 임베딩은 어텐션이 프레임과 오디오 샘플의 연대 순서를 유지하도록 보장합니다.
- Shared timestep conditioning – 두 스트림 모두 AdaLN(Adaptive Layer‑Norm) 모듈을 통해 동일한 디퓨전 타임스텝 임베딩을 받아, 비디오와 오디오가 동기화되어 진화하도록 합니다.
- Multilingual text encoder – 사전 학습된 다국어 인코더(예: XLM‑R)가 사용자 프롬프트를 언어에 구애받지 않는 임베딩으로 변환하고, 이를 두 스트림 모두에 전달합니다.
- Modality‑CFG – 비디오와 오디오에 각각 별도의 가이드 스케일을 적용함으로써 클래스‑프리 가이던스를 확장하고, 시각 디테일과 오디오 현실성 사이의 트레이드‑오프를 개발자가 세밀하게 제어할 수 있게 합니다.
학습은 2 M개 정도의 짝지어진 비디오‑오디오 클립으로 구성된 대규모 큐레이션 데이터셋을 사용하며, 두 모달리티에 동시에 디퓨전 노이즈 스케줄을 적용합니다. 손실은 비디오와 오디오 재구성 오류의 가중합으로, 긴밀한 시청각 결합을 촉진합니다.
결과 및 발견
- 정량적: LTX‑2는 비디오용 FVD, 사운드용 Fréchet Audio Distance 등 표준 시청각 지표에서 모든 오픈‑소스 베이스라인을 능가하며, 평균 약 15 % 정도 상업 시스템과의 격차를 좁혔습니다.
- 정성적: 생성된 클립은 화면의 입술 움직임과 일치하는 일관된 음성을 포함하고, 비, 군중 대화와 같은 현실적인 환경음, 그리고 시각적 분위기에 맞는 스타일리시한 오디오 큐(예: 공포 스타일 드론)를 보여줍니다.
- 효율성: 추론 시간은 유사한 상용 모델보다 약 2× 빠르며, 비대칭 설계 덕분에 GPU 메모리 사용량이 약 30 % 감소했습니다.
- 제어: Modality‑CFG는 사용자가 시각적 충실도(예: 선명한 액션 씬)를 우선시하면서도 오디오를 이해 가능하게 하거나, 반대로 팟캐스트 비디오 생성과 같은 오디오 중심 애플리케이션을 위해 오디오를 우선시하도록 합니다.
Practical Implications
- 콘텐츠 제작 파이프라인 – 비디오 편집자와 인디 개발자는 별도의 보이스오버 아티스트나 사운드 디자이너를 고용하지 않고도 완전한 비디오 광고, 설명 클립, 혹은 게임 컷신을 생성할 수 있습니다.
- 다국어 미디어 – 다국어 인코더를 통해 현지화된 비디오를 네이티브 언어 내레이션과 문화적으로 적절한 사운드스케이프와 함께 손쉽게 제작할 수 있습니다.
- 빠른 프로토타이핑 – 팀은 프롬프트를 교체하면서 스토리보드를 반복하고 즉시 동기화된 시청각 결과를 확인함으로써 사전 제작 시간을 단축할 수 있습니다.
- 접근성 도구 – 시각 장애인을 위한 설명 오디오 트랙을 자동으로 생성하는 것이 대규모로 가능해집니다.
- 엣지 배포 – 모델이 더 계산 효율적이기 때문에 온‑디바이스 애플리케이션(예: 실시간 시청각 합성을 통한 AR/VR 경험)을 위해 파인튜닝하거나 경량화할 수 있습니다.
제한 사항 및 향후 작업
- 오디오 충실도 한계 – 인상적이지만, 5 B 오디오 스트림은 미묘한 억양과 고주파 디테일에서 전용 음성 합성 모델에 아직 뒤처진다.
- 데이터셋 편향 – 훈련 데이터가 서구 미디어에 편중되어 있어, 비서구 문화적 맥락을 포함한 프롬프트는 때때로 부합하지 않는 사운드 효과를 만든다.
- 시간 길이 – 현재 구현은 약 10 초까지의 클립을 처리하며, 더 긴 내러티브는 구간 연결이나 계층적 디퓨전이 필요하다.
- 향후 방향은 저자들이 제안한 바와 같이 오디오 스트림 확장, 명시적 음악 생성 모듈 통합, 그리고 모델을 인터랙티브 컨디셔닝(예: 실시간 사용자 스케치) 지원으로 확장하는 것을 포함한다.
LTX‑2는 단일하고 잘 설계된 기반 모델이 비디오 생성과 오디오 합성 사이의 오랜 격차를 메울 수 있음을 보여주며, 개발자들이 훨씬 적은 수작업으로 더 풍부하고 몰입감 있는 미디어 경험을 구축할 수 있는 새로운 길을 열어준다.
저자
- Yoav HaCohen
- Benny Brazowski
- Nisan Chiprut
- Yaki Bitterman
- Andrew Kvochko
- Avishai Berkowitz
- Daniel Shalem
- Daphna Lifschitz
- Dudu Moshe
- Eitan Porat
- Eitan Richardson
- Guy Shiran
- Itay Chachy
- Jonathan Chetboun
- Michael Finkelson
- Michael Kupchick
- Nir Zabari
- Nitzan Guetta
- Noa Kotler
- Ofir Bibi
- Ori Gordon
- Poriya Panet
- Roi Benita
- Shahar Armon
- Victor Kulikov
- Yaron Inger
- Yonatan Shiftan
- Zeev Melumian
- Zeev Farbman
논문 정보
- arXiv ID: 2601.03233v1
- Categories: cs.CV
- Published: 2026년 1월 6일
- PDF: Download PDF