[Paper] TV2TV: 언어와 비디오가 교차하는 생성에 대한 통합 프레임워크
발행: (2025년 12월 5일 오전 03:59 GMT+9)
10 min read
원문: arXiv
Source: arXiv - 2512.05103v1
개요
이 논문은 TV2TV라는 새로운 “옴니” 비디오‑텍스트 모델을 소개한다. 이 모델은 비디오 생성을 언어와 픽셀 사이의 앞뒤 대화로 취급한다. 언어 모델이 “단어로 생각”하고 시각 모델이 “픽셀로 행동”하도록 함으로써 TV2TV는 더 높은 품질과 제어 가능한 비디오를 생성하며, 생성 과정의 어느 시점이든 텍스트 프롬프트로 조정할 수 있다.
주요 기여
- 교차 생성 프레임워크 – 다음 토큰(텍스트) 예측과 다음 프레임(비디오 흐름 매칭) 예측을 번갈아 수행하는 단일 모델.
- Mixture‑of‑Transformers (MoT) 아키텍처 – 공통 잠재 공간을 공유하고 공동 학습되는 별도의 언어 모델링 및 비디오 모델링 타워.
- 동적 전환 정책 – 추론 시 모델이 언제 텍스트를 생성하고 언제 비디오를 생성할지 자율적으로 결정하여 실시간 추론을 가능하게 함.
- 세밀한 텍스트 제어 – 사용자는 생성 중간에 텍스트 지시문을 삽입·편집하여 비디오 궤적을 재구성할 수 있음.
- 혼합 데이터에 대한 확장 가능한 학습 – 합성 게임 영상에 자동 생성된 행동 캡션을 결합하고, VLM‑유도 설명이 붙은 실제 스포츠 영상을 활용.
- 실증적 향상 – 게임 및 자연 비디오 벤치마크 모두에서 시각적 충실도(FVD/IS)와 프롬프트 정렬(CLIP‑Score)에서 강력한 베이스라인 대비 큰 개선을 달성.
방법론
- 데이터 준비 – 저자들은 두 개의 코퍼스를 구축한다:
- (a) 각 프레임 시퀀스가 인간이 작성한 행동 캡션과 짝지어진 비디오‑게임 데이터셋,
- (b) 비전‑언어 모델을 사용해 자동으로 자연어 설명이 달린 대규모 스포츠 클립 컬렉션.
- 모델 설계 –
- 언어 타워: 이전 토큰과 잠재 비디오 컨텍스트를 입력으로 받아 다음 토큰을 예측하는 표준 디코더‑전용 트랜스포머.
- 비디오 타워: 과거 프레임과 현재 텍스트 임베딩을 조건으로 다음 비디오 프레임을 예측하는 흐름‑매칭 확산 모델.
- Mixture‑of‑Transformers: 게이팅 네트워크가 각 단계에서 은닉 상태를 어느 타워로 라우팅할지 학습하여 “생각”과 “행동”을 결정한다.
- 공동 학습 – 두 타워는 공통 임베딩 공간을 공유하며, 텍스트에 대한 교차 엔트로피 손실과 비디오에 대한 흐름‑매칭 손실을 결합한 손실 함수로 동시에 최적화된다.
- 추론 알고리즘 – 초기 프롬프트에서 시작해 모델은 토큰 또는 프레임을 반복적으로 샘플링한다. 은닉 상태 위에 경량 분류기로 구현된 학습된 정책이 언어 타워가 새로운 고수준 개념이 필요함을 감지하면 전환을 트리거한다.
- 제어 인터페이스 – 개발자는 생성 과정의 어느 단계에서든 사용자 정의 토큰을 삽입할 수 있으며, 이는 이후 프레임 예측에 즉시 영향을 미친다.
결과 및 발견
| 데이터셋 | 지표 (↑ 좋음) | TV2TV | 이전 SOTA |
|---|---|---|---|
| 게임플레이 (합성) | FVD ↓ | 45 | 78 |
| 게임플레이 | CLIP‑Score ↑ | 0.71 | 0.58 |
| 스포츠 (실제) | IS ↑ | 12.4 | 9.1 |
| 스포츠 | 프롬프트 정렬 (BLEU‑4) ↑ | 0.34 | 0.22 |
- 시각적 품질: TV2TV는 합성 데이터에서 Fréchet Video Distance (FVD)를 약 40 % 감소시키고, 실제 비디오에서 Inception Score를 향상시켜 더 선명하고 일관된 프레임을 생성한다.
- 프롬프트 정렬: 교차된 언어 단계 덕분에 CLIP‑Score와 BLEU‑4가 높아져 생성 비디오가 텍스트 설명을 더 충실히 따른다.
- 제어 실험: 생성 중간에 “자동차가 왼쪽으로 회전해야 한다”는 교정 문장을 하나 삽입하면 시각적 품질 저하 없이 궤적이 확실히 바뀌었다.
- 소거 실험: 동적 전환 정책을 제거하고 고정된 텍스트‑후‑비디오 스케줄을 강제하면 FVD와 정렬 점수가 모두 하락하여 실시간 추론의 중요성을 확인했다.
실용적 함의
- 콘텐츠 제작 파이프라인 – 게임 스튜디오나 광고 팀이 스크립트를 작성하고 TV2TV가 시각을 채워주면 프로토타입 컷신을 빠르게 만들 수 있어 반복 시간이 크게 단축된다.
- 인터랙티브 미디어 – VR/AR 개발자는 사용자가 텍스트나 음성 명령을 입력해 진행 중인 비디오 스트림을 즉시 재구성하도록 하여 “텍스트‑구동 게임플레이”를 구현할 수 있다.
- 데이터 증강 – 정렬된 캡션이 붙은 합성 비디오를 대규모로 생성해 다운스트림 비전‑언어 모델 학습에 활용함으로써 비용이 많이 드는 수작업 라벨링을 감소시킨다.
- 세밀한 편집 – 기존 비디오 자산에 “여기에 비를 추가해라”와 같은 텍스트 패치를 삽입해 편집할 수 있어 포스트‑프로덕션 워크플로가 새롭게 변한다.
- 개방형 AI 에이전트 – 이 아키텍처는 언어로 행동을 계획하고 시각적으로 실행하는 에이전트 구현에 유망한 경로를 제시하며, 로봇 시뮬레이터나 자율주행 시나리오 생성에 활용될 수 있다.
한계 및 향후 연구
- 긴 비디오에 대한 확장성 – 현재 모델은 약 8 초 길이의 클립만 처리한다. 더 긴 시퀀스를 다루려면 계층적 계획이나 메모리 효율적인 트랜스포머가 필요할 수 있다.
- 캡션 품질 의존성 – 자연 비디오의 경우 VLM‑생성 설명이 노이즈가 섞일 수 있어 비디오 타워에 오류가 전파될 위험이 있다.
- 컴퓨팅 비용 – 두 대형 트랜스포머와 흐름‑매칭 확산을 공동 학습하는 데 많은 자원이 소모돼 소규모 연구실의 접근성이 제한된다.
- 사용자 제어 세분성 – 텍스트 개입은 가능하지만 객체 위치 지정 등 보다 정밀한 공간 제어는 아직 지원되지 않는다.
향후 연구 방향으로는 계층적 교차(장면‑수준 언어 → 샷‑수준 비디오), 오디오와의 다중모달 조건화, 경량 증류 기법을 통한 엣지 디바이스 적용 등이 있다.
저자
- Xiaochuang Han
- Youssef Emad
- Melissa Hall
- John Nguyen
- Karthik Padthe
- Liam Robbins
- Amir Bar
- Delong Chen
- Michal Drozdzal
- Maha Elbayad
- Yushi Hu
- Shang‑Wen Li
- Sreya Dutta Roy
- Jakob Verbeek
- XuDong Wang
- Marjan Ghazvininejad
- Luke Zettlemoyer
- Emily Dinan
논문 정보
- arXiv ID: 2512.05103v1
- 분류: cs.LG, cs.AI, cs.CV
- 발표일: 2025년 12월 4일
- PDF: Download PDF