[Paper] Structure From Tracking: 디스틸링 구조 보존 모션 for Video Generation

발행: (2025년 12월 13일 오전 03:56 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.11792v1

Overview

이 논문은 SAM2VideoX라는 새로운 비디오 생성 모델을 제시한다. 이 모델은 움직이는 객체, 특히 인간과 동물 같은 관절이 있는 몸체의 기본 구조를 유지하면서도 현실적이고 고품질의 움직임을 생성한다. 최첨단 자동회귀 트래커(SAM2)에서 모션 프라이어를 추출해 양방향 확산 모델(CogVideoX)에 증류함으로써, 객관적 지표와 인간 선호도 점수 모두에서 눈에 띄는 향상을 달성한다.

Key Contributions

  • 구조 보존 모션 증류: 트래킹 모델(SAM2)에서 전역 모션 프라이어를 추출하고 이를 확산 기반 비디오 생성기에 주입하는 파이프라인을 소개한다.
  • 양방향 특징 융합 모듈: 트래커의 전방·후방 시간 특징을 결합하는 경량 아키텍처로, 확산 모델이 전체 클립에 걸쳐 일관된 객체 레이아웃을 인식하도록 한다.
  • Local Gram Flow 손실: 지역 특징 패치의 상대적 움직임을 정렬하는 새로운 정규화 항으로, 명시적인 옵티컬 플로우 감독 없이도 일관된 변형을 유도한다.
  • 최첨단 결과: VBench 벤치마크에서 새로운 최고 점수(전체 95.51 %, 이전 최고 대비 +2.60 %)를 기록하고, 강력한 베이스라인 대비 Fréchet Video Distance(FVD)를 20 % 이상 감소시켰다.
  • 인간 중심 평가: 사용자 연구에서 71.4 %의 선호도를 보였으며, 이는 생성된 비디오가 일반 시청자에게 더 자연스럽게 느껴짐을 의미한다.

Methodology

  1. 교사 모델 – SAM2 트래킹

    • SAM2는 자동회귀 비디오 트래커로, 프레임별 객체 마스크를 예측해 강체와 변형체의 기하학을 보존한다.
    • 숨겨진 상태는 사지 회전이나 꼬리 흔들림 등 풍부한 모션 정보를 담고 있지만, 직접적으로 생성에 활용하기는 어렵다.
  2. 학생 모델 – CogVideoX 확산

    • CogVideoX는 텍스트 프롬프트에 조건화된 노이즈에서 프레임을 합성하는 양방향 비디오 확산 모델이다.
    • 저자들은 양방향 특징 융합 모듈을 추가해 SAM2의 전방·후방 숨겨진 표현을 받아들여, 확산 모델에 “모션 로드맵”을 제공한다.
  3. 구조 인식 손실을 이용한 학습

    • 표준 확산 손실 외에 Local Gram Flow 손실을 도입한다. 이 손실은 시간에 걸친 인접 패치들의 Gram 행렬(지역 특징 벡터의 내적)을 계산한다. 이러한 행렬을 맞추면 생성기가 지역 텍스처와 형태를 함께 움직이게 하여 트래커에서 관찰되는 일관된 움직임을 모방한다.
  4. 증류 파이프라인

    • 트래커는 확산 모델 학습에 사용되는 동일한 비디오 데이터에서 실행되어 모션 프라이어를 만든다.
    • 이 프라이어는 부드러운 목표(soft target)로 취급되며, 확산 모델은 텍스트 프롬프트와 동시에 이를 재현하도록 학습한다.

전체 학습 루프는 간단하다: 비디오를 샘플링하고, SAM2를 실행해 모션 특징을 수집한 뒤, 이를 융합 모듈에 입력하고, 확산 손실과 Gram‑flow 손실을 모두 역전파한다.

Results & Findings

MetricSAM2VideoXREPA (prev. SOTA)LoRA‑finetuned CogVideoX
VBench overall score95.51 % (+2.60 %)92.91 %
FVD (lower is better)360.57 (‑21 % vs REPA, ‑22 % vs LoRA)~458~464
Human preference (pairwise)71.4 %28.6 %
  • 카테고리 전반에 걸친 일관된 향상: 모델은 차량 같은 강체 비디오와 인간·동물의 고변형 주제(예: 춤추는 사람, 동물) 모두에서 뛰어난 성능을 보인다.
  • 정성적 개선: 시각적 예시에서 사지 관절이 더 부드럽게 움직이고, “유령” 아티팩트가 감소하며, 빠른 움직임 중에도 객체 실루엣 보존이 향상된 것을 확인할 수 있다.
  • 소거 실험: 양방향 융합을 제거하면 VBench 점수가 약 1.4 % 감소하고, Local Gram Flow 손실을 제외하면 인간 선호도가 약 9 % 감소하여 각 구성 요소의 효과를 입증한다.

Practical Implications

  • 콘텐츠 제작 파이프라인: 스튜디오와 인디 개발자는 키프레임 수를 줄이고 모션 캡처 정리 시간을 절감하면서 고품질 애니메이션 자산(예: 캐릭터 동작 클립)을 생성할 수 있다.
  • AR/VR 및 게임: 텍스트 프롬프트로 구동되는 실시간 아바타나 NPC가 물리적으로 타당한 사지 움직임을 유지하므로, 수작업 애니메이션 리그가 필요해지는 부담이 감소한다.
  • 학습용 합성 데이터: 구조가 잘 보존된 비디오 합성은 포즈 추정, 행동 인식 등 하위 컴퓨터 비전 모델에 보다 현실적인 학습 데이터를 제공해 견고성을 높일 수 있다.
  • 크로스모달 스토리텔링: 기존 텍스트‑투‑비디오 도구와 SAM2VideoX를 결합하면 “고양이가 움직이는 기차 위로 뛰어오른다”와 같은 복잡한 장면을 비현실적인 변형에 대한 걱정 없이 스크립팅할 수 있다.

Limitations & Future Work

  • 트래커 품질 의존성: SAM2는 극심한 가림 현상이나 매우 빠른 움직임에서는 성능이 떨어지며, 이는 확산 모델에 오류를 전파할 수 있다.
  • 계산 비용: 양방향 융합과 Gram‑flow 손실이 추가 오버헤드를 발생시켜, 일반 확산 모델보다 학습 속도가 느리다.
  • 미지 도메인 일반화: 인간·동물에는 강력하지만, 유체 시뮬레이션 같은 고도로 비관절적이거나 추상적인 시각 도메인에서는 아직 검증되지 않았다.
  • 향후 방향: 저자들은 보다 견고한 다중 객체 트래커 통합, 실시간 추론을 위한 경량 융합 대안 탐색, 3‑D 비디오 생성 또는 스타일 전이 제어 확장 등을 제안한다.

Authors

  • Yang Fei
  • George Stoica
  • Jingyuan Liu
  • Qifeng Chen
  • Ranjay Krishna
  • Xiaojuan Wang
  • Benlin Liu

Paper Information

  • arXiv ID: 2512.11792v1
  • Categories: cs.CV
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.