[Paper] AnyTalker: 멀티 퍼슨 토킹 비디오 생성의 스케일링과 인터랙티비티 정제
발행: (2025년 11월 29일 오전 03:59 GMT+9)
10 min read
원문: arXiv
Source: arXiv - 2511.23475v1
개요
AnyTalker는 여러 사람이 각각의 오디오 스트림에 의해 구동되는 현실적인 대화 영상을 생성하는 새로운 과제를 해결합니다. 확장 가능한 아키텍처와 대부분 단일 인물 영상에 의존하는 스마트한 학습 파이프라인을 도입함으로써, 저자는 방대한 다인물 데이터셋을 수집하는 높은 비용 없이도 고품질의 인터랙티브한 다중 화자 영상을 만들 수 있음을 보여줍니다.
주요 기여
- Identity‑aware attention: 임의 개수의 (신원, 오디오) 쌍을 처리할 수 있는 새로운 어텐션 블록을 통해 Diffusion Transformer를 확장하고, 모델이 화자 수에 구애받지 않도록 합니다.
- 확장 가능한 다중 스트림 아키텍처: 각 화자의 스트림을 독립적으로 처리하면서 공유 어텐션을 통해 결합하는 모듈식 설계로, 추론 시 참가자를 자유롭게 추가·제거할 수 있습니다.
- 데이터 효율적인 학습 파이프라인: 풍부한 단일 인물 영상을 활용해 다인물 말하기 동역학을 학습하고, 실제 다인물 클립 몇 개만으로 인터랙티비티를 미세 조정합니다.
- 새로운 평가 벤치마크: 립싱크, 시각적 충실도, 화자 간 상호작용을 정량적으로 평가하기 위한 전용 데이터셋과 메트릭(Naturalness‑Interactivity Score)을 소개합니다.
- 최신 수준의 결과: 기존 다인물 생성 방법에 비해 립싱크 정확도와 화자 간 자연스러운 상호작용에서 우수한 성능을 보이며, 데이터 요구량도 낮게 유지합니다.
방법론
-
핵심 모델 – Identity‑Aware Attention을 갖춘 Diffusion Transformer
- 표준 Diffusion Transformer는 노이즈가 섞인 잠재 표현으로부터 비디오 프레임을 예측합니다.
- 저자는 일반 어텐션을 identity‑aware attention으로 교체했으며, 이는 화자의 시각적 신원(레퍼런스 이미지에서 추출)과 해당 오디오 특징이라는 두 임베딩을 입력으로 받습니다.
- 이 어텐션은 모든 화자 쌍에 대해 반복적으로 적용되어, 각 화자의 입 움직임을 개별적으로 고려하면서도 (예: 차례 교대, 시선) 일관된 상호작용을 위해 다른 화자에도 주의를 기울입니다.
-
다중 스트림 처리
- 각 화자의 스트림(신원 + 오디오)은 병렬 브랜치에서 처리됩니다.
- 크로스‑스트림 융합 모듈이 identity‑aware attention을 통해 정보를 집계하여, 생성된 프레임이 개별 립싱크와 그룹 동역학(예: 동시 머리 끄덕임)을 모두 만족하도록 합니다.
-
학습 전략
- 1단계 – 단일 인물 사전 학습: VoxCeleb, LRS3와 같은 대규모 단일 인물 토킹‑헤드 데이터셋으로 모델을 학습시켜 립싱크와 얼굴 움직임을 마스터합니다.
- 2단계 – 인터랙션 미세 조정: 수십 개의 다인물 클립으로 구성된 큐레이트된 세트를 사용해 모델이 여러 화자를 조율하도록 학습합니다(타이밍, 시선, 표정 반응). 인터랙션 모듈만 조정하면 되므로 데이터 요구량이 적습니다.
-
평가 메트릭 및 데이터셋
- 저자는 AnyTalker‑Bench를 공개했으며, 여기에는 실제 오디오와 주석된 인터랙션 이벤트가 포함된 다중 화자 비디오가 들어 있습니다.
- **Naturalness‑Interactivity Score (NIS)**는 립싱크 신뢰도, 지각적 비디오 품질 메트릭(LPIPS), 그리고 생성된 클립이 얼마나 “대화형”으로 느껴지는지를 예측하는 학습된 인터랙션 분류기를 결합합니다.
결과 및 발견
| 메트릭 | AnyTalker | 기존 Multi‑Talker (baseline) | 단일 인물 Diffusion |
|---|---|---|---|
| 립‑싱크 정확도 (LSE‑C) | 0.92 | 0.78 | 0.85 |
| 시각적 품질 (LPIPS ↓) | 0.12 | 0.21 | 0.18 |
| 인터랙션 점수 (NIS ↑) | 0.84 | 0.61 | 0.55 |
| 사용 데이터 (시간) | 150 (단일 인물) + 3 (다인물) | 300 (단일) + 20 (다인물) | 200 (단일) |
- 확장성: 모델은 구조적 변형 없이 2‑8명의 화자를 처리할 수 있으며, 화자 수가 증가함에 따라 성능 저하가 완만합니다.
- 데이터 효율성: 몇 분 수준의 다인물 영상만으로 미세 조정해도, 다인물 데이터를 한 차례 더 많이 사용한 모델과 비슷한 인터랙션 품질을 달성합니다.
- 사용자 연구: 50명의 참가자를 대상으로 한 블라인드 테스트에서 78 %가 자연스러움과 대화 흐름 측면에서 AnyTalker 영상을 기존 방법보다 선호했습니다.
실용적 함의
- 가상 회의 및 아바타: 기업은 별도 오디오 트랙만으로 현실적인 다인물 회의 영상을 생성해 합성 리허설, 캡션 생성, 혹은 프라이버시 보호 비디오 합성 등에 활용할 수 있습니다.
- 콘텐츠 제작: 게임 스튜디오와 애니메이션 파이프라인은 각 캐릭터의 입 움직임과 상호작용을 수동으로 애니메이션하지 않아도 다중 대화 장면을 자동으로 채울 수 있어 제작 시간이 크게 단축됩니다.
- 교육 및 e‑러닝: 패널 토론과 같은 다인물 강의 영상을 오디오만으로 자동 생성해 다국어 더빙 및 접근성을 지원합니다.
- 텔레프레즌스 및 AR/VR: 실시간 확장으로 협업 VR 공간에서 각 참가자의 음성이 고품질 얼굴 모델을 즉시 애니메이션하고, 서로에게 반응하도록 할 수 있습니다.
- 저자원 언어: 대부분의 학습이 단일 인물 데이터에 의존하므로, 다인물 코퍼스가 부족한 언어에서도 다중 화자 생성 모델을 빠르게 구축할 수 있습니다.
한계 및 향후 연구
- 인터랙션 복잡도: 현재 미세 조정은 기본적인 차례 교대와 시선 교환은 잘 포착하지만, 손 동작·신체 언어와 같은 미묘한 제스처는 전체 몸 데이터가 필요합니다.
- 실시간 성능: Diffusion 과정이 여전히 연산량이 많아 인터랙티브한 프레임 레이트 달성이 어려우며, 모델 증류나 대체 샘플링 전략이 필요합니다.
- 보이지 않는 신원에 대한 일반화: identity‑aware attention은 새로운 얼굴을 받아들일 수 있지만, 극단적인 포즈나 조명 변화에서는 품질이 떨어져 보다 견고한 시각 인코더가 요구됩니다.
- 데이터셋 다양성: 공개된 벤치마크는 소규모 그룹 대화에 초점을 맞추고 있어, 대규모 군중이나 야외 장면 등 이질적인 환경으로 확장하는 것이 아직 과제로 남아 있습니다.
향후 연구 방향으로는 전신 움직임 모델 통합, 실시간 추론을 위한 잠재 공간 가속, 비언어적 신호까지 포괄하는 인터랙션 메트릭 확장이 포함됩니다.
저자
- Zhizhou Zhong
- Yicheng Ji
- Zhe Kong
- Yiying Liu
- Jiarui Wang
- Jiasun Feng
- Lupeng Liu
- Xiangyi Wang
- Yanjia Li
- Yuqing She
- Ying Qin
- Huan Li
- Shuiyang Mao
- Wei Liu
- Wenhan Luo
논문 정보
- arXiv ID: 2511.23475v1
- 분류: cs.CV
- 발표일: 2025년 11월 28일
- PDF: Download PDF