[Paper] AlcheMinT: 세밀한 시간적 제어를 통한 다중 레퍼런스 일관성 비디오 생성
발행: (2025년 12월 12일 오전 03:59 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.10943v1
개요
AlcheMinT은 확산 기반 비디오 생성기에 각 피사체가 언제 나타나고 사라져야 하는지 정확히 지정할 수 있게 해주는 새로운 프레임워크입니다. 프롬프트에 명시적인 타임스탬프를 추가함으로써 모델은 여러 피사체가 등장하는 비디오를 각 캐릭터의 외모를 유지하면서 사용자 정의 시간 스크립트를 따르게 생성할 수 있습니다—이는 구성 비디오 합성, 스토리보드 작성, 제어 가능한 애니메이션 등에 새로운 가능성을 열어줍니다.
주요 기여
- Timestamp‑conditioned generation – 피사체 정체성을 비디오 내부의 특정 시간 구간에 결합하는 위치 인코딩 방식을 도입합니다.
- Lightweight integration – 토큰 수준에서의 연결을 통해 추가적인 교차‑어텐션 레이어 없이 구현되며, 파라미터 증가가 거의 없습니다.
- Subject‑descriptive tokens – 피사체의 시각적 정체성과 캡션 사이의 연결을 강화하는 전용 텍스트 토큰을 추가하여 모호성을 감소시킵니다.
- Comprehensive benchmark – 다중 피사체 정체성 보존, 전체 비디오 품질, 시간 스크립트 준수 등을 평가하는 메트릭을 제안합니다.
- State‑of‑the‑art quality – 기존 피사체 기반 비디오 개인화 방법과 동등하거나 뛰어난 품질을 제공하면서, 최초로 세밀한 시간 제어를 구현합니다.
방법론
- Base model – 이미 피사체 기반 생성이 가능한 사전 학습된 텍스트‑투‑비디오 확산 모델을 출발점으로 사용합니다.
- Temporal positional encoding – 기존 위치 임베딩에 타임스탬프 인코딩을 확장하여 각 피사체 토큰을 시작‑프레임과 종료‑프레임 구간에 매핑합니다. 이 인코딩은 토큰 임베딩에 직접 더해져 확산 UNet에 입력됩니다.
- Subject‑descriptive tokens – 각 피사체마다 짧은 텍스트 토큰(예:
<person_A>)을 프롬프트에 삽입합니다. 이 토큰은 피사체 임베딩과 공동 학습되어 모델이 어떤 시각적 모습이 어느 타임스탬프에 해당하는지 알 수 있게 합니다. - Token‑wise concatenation – 타임스탬프 인코딩과 피사체 토큰을 토큰 수준에서 연결하여 확산 백본이 단일 강화 토큰 스트림을 받도록 합니다. 별도의 어텐션 모듈이 필요 없으며 계산 오버헤드가 최소화됩니다.
- Training & fine‑tuning – 여러 피사체와 알려진 등장 구간을 포함한 짧은 클립 데이터셋을 이용해 시스템을 미세 조정합니다. 표준 확산 손실에 시간 일관성 정규화를 추가합니다.
결과 및 발견
- Visual fidelity – FVD(Fréchet Video Distance)와 CLIP 기반 이미지 품질 점수로 측정했을 때, AlcheMinT의 출력은 최고 수준의 피사체‑개인화 비디오 생성기와 동등합니다.
- Identity preservation – 5‑피사체 테스트 비디오에서 평균 정체성 유사도(얼굴/객체 인코더 사용)가 시간 제어가 없는 베이스라인 대비 약 12 % 향상되었습니다.
- Temporal adherence – 새롭게 도입한 “timestamp accuracy” 메트릭에서 90 % 이상의 프레임이 지정된 등장 구간을 정확히 따랐으며, 기존 방법은 종종 피사체가 의도치 않은 프레임에 섞이는 문제가 있었습니다.
- Parameter efficiency – 추가된 타임스탬프 및 설명 토큰 임베딩으로 모델 크기가 0.5 % 미만 증가했으며, 추론 속도는 원래 확산 파이프라인 대비 5 % 이내로 유지됩니다.
실용적 함의
- Storyboarding & Pre‑visualization – 영화 제작자는 캐릭터가 언제 씬에 등장하는지 스크립트화하고 즉시 대략적인 비디오 목업을 생성해 레이아웃 작업을 크게 줄일 수 있습니다.
- Dynamic Advertising – 브랜드는 사용자 생성 클립에서 제품이 정확히 원하는 순간에 나타나는 맞춤형 광고를 만들 수 있습니다.
- Game Asset Animation – 개발자는 짧은 컷신이나 UI 애니메이션을 생성해 내러티브 비트와 캐릭터 등장 시점을 손쉽게 동기화할 수 있습니다.
- Educational Content – 강사는 다이어그램이나 물체와 같은 시각 보조 자료가 정확한 타임스탬프에 등장·사라지는 튜토리얼 비디오를 제작해 이해도를 높일 수 있습니다.
- Composable pipelines – AlcheMinT은 기존 확산 비디오 생성기에 최소한의 오버헤드만으로 플러그인될 수 있어, Runway, Stability AI 등 현재 제작 파이프라인에 전체 모델을 재구축하지 않고도 적용할 수 있습니다.
제한 사항 및 향후 연구
- Short clip focus – 현재 학습 데이터는 ≤ 8 초 클립에 국한되어 있어, 더 긴 서사는 계층적 시간 모델링이 필요합니다.
- Subject count scaling – 3‑5 피사체에서는 잘 동작하지만, 수십 개의 동시 정체성을 다루면 정체성 보존이 감소합니다.
- Complex motion – 급격한 비선형 움직임(예: 빠른 컷, 카메라 흔들림)은 타임스탬프 인코더를 혼란시켜 약간의 시간 드리프트가 발생할 수 있습니다.
- Future directions – 저자들은 위치 인코딩을 계층적 시간 스케일(씬 → 샷)로 확장하고, 오디오 신호를 통합한 멀티모달 제어, 그리고 미세 조정 없이 새로운 피사체에 대한 제로샷 적응을 탐구할 것을 제안합니다.
저자
- Sharath Girish
- Viacheslav Ivanov
- Tsai‑Shien Chen
- Hao Chen
- Aliaksandr Siarohin
- Sergey Tulyakov
논문 정보
- arXiv ID: 2512.10943v1
- Categories: cs.CV, cs.AI
- Published: December 11, 2025
- PDF: Download PDF