[Paper] DisMo: 오픈 월드 모션 전송을 위한 분리된 모션 표현

발행: (2025년 11월 29일 오전 03:25 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.23428v1

Overview

이 논문은 DisMo 라는 새로운 방식을 소개한다. DisMo는 시각적 외관과 완전히 분리된 움직임 표현을 학습한다. 단순한 이미지 공간 재구성 손실을 사용해 원시 비디오 클립을 학습함으로써, 객체의 형태, 질감, 포즈와 무관하게 움직임의 본질을 포착한다. 이를 통해 매우 다른 카테고리 간에도 해당 움직임을 목표 콘텐츠에 전이할 수 있다. 이는 텍스트‑투‑비디오, 이미지‑투‑비디오, 혹은 애니메이션 도구를 개발하는 개발자들에게 보다 유연하고 개방된 워크플로를 제공한다.

Key Contributions

  • 완전 분리된 움직임 임베딩: 동역학을 정적 시각 단서(외관, 정체성, 포즈)와 분리한다.
  • 오픈‑월드 움직임 전이: 의미적으로 관련 없는 대상에도 움직임을 적용할 수 있으며, 명시적인 대응 관계가 필요하지 않다.
  • 모델‑불가지론 어댑터: 학습된 움직임 벡터를 기존 비디오 생성기(예: diffusion 기반 T2V/I2V 모델)에 최소한의 추가 파라미터만으로 삽입할 수 있다.
  • 최신 수준의 제로‑샷 행동 분류: Something‑Something v2, Jester 벤치마크에서 최근 비디오 표현 모델인 V‑JEPA 등을 능가한다.
  • 통합 학습 목표(이미지‑공간 재구성): 기존 연구에서 사용하던 복잡한 적대적 혹은 대비 손실을 피한다.

Methodology

  1. 데이터 및 목표 – DisMo는 정제되지 않은 비디오 클립에서 학습한다. 각 클립에 대해 모델은 현재 프레임과 잠재 움직임 코드를 입력으로 다음 프레임을 예측한다. 손실은 단순히 픽셀‑단위 재구성 오류이며, 이는 잠재 변수가 움직임을 예측하는 데 필요한 모든 정보를 담도록 유도한다.
  2. 인코더‑디코더 구조
    • 움직임 인코더: 짧은 프레임 시퀀스로부터 압축된 움직임 벡터를 추출한다.
    • 콘텐츠 인코더: 단일 기준 프레임으로부터 정적 외관을 별도로 인코딩한다.
    • 디코더: 움직임 및 콘텐츠 코드를 결합해 미래 프레임을 재구성한다.
  3. 디자인에 의한 분리 – 움직임 인코더를 학습할 때 콘텐츠 인코더의 파라미터를 고정함으로써, 움직임 브랜치가 모든 시간적 변화를 설명하도록 강제한다.
  4. 어댑터 모듈 – 작은 신경 어댑터가 DisMo의 움직임 벡터를 다운스트림 비디오 생성기의 잠재 공간에 매핑한다(예: diffusion 모델). 이를 통해 플러그‑인 방식이 가능해진다: 비디오 생성기를 나중에 교체해도 동일한 움직임 임베딩을 그대로 사용할 수 있다.
  5. 제로‑샷 평가 – 움직임 임베딩을 직접 선형 분류기에 입력해, 미세 조정 없이 행동 의미를 얼마나 잘 포착하는지 테스트한다.

Results & Findings

  • 움직임 전이 품질 – 정성적 데모에서는 “개 점프”를 자동차에, “인간 춤”을 만화 캐릭터에, “물체 흔들림”을 전혀 다른 객체 클래스에 적용하는 현실적인 전이를 보여준다. 전이된 비디오는 목표의 외관을 유지하면서도 원본 움직임을 충실히 재현한다.
  • 정량적 지표 – 기존 움직임‑전이 베이스라인에 비해 DisMo는 비디오‑FID 점수를 약 15 % 개선하고, 광학 흐름 일관성으로 측정한 움직임 드리프트를 약 20 % 감소시킨다.
  • 제로‑샷 분류 – Something‑Something v2에서 DisMo의 움직임 임베딩은 top‑1 정확도 68.3 %를 달성해 V‑JEPA의 64.7 %를 앞선다. Jester 데이터셋에서도 유사한 향상이 관찰된다.
  • 어댑터 효율성 – 최신 텍스트‑투‑비디오 diffusion 모델에 어댑터를 추가해도 파라미터가 <0.5 M(전체 모델의 ≈0.2 %)에 불과하며, 원래 모델의 생성 품질을 유지한다.

Practical Implications

  • 콘텐츠 제작 파이프라인 – 비디오 편집자는 이제 어떤 클립에서든 움직임 “스타일”을 추출해 새로운 자산에 적용할 수 있다(예: 실제 세계의 춤을 3D 모델에 리깅 없이 애니메이션 적용).
  • 게임 개발 – 절차적 애니메이션 시스템이 움직임 임베딩 라이브러리를 재사용해 캐릭터, 소품, UI 요소를 구동함으로써 수작업 키프레임 제작 부담을 줄인다.
  • 증강 현실 및 VFX – 실시간 움직임 전이는 라이브 카메라 영상을 가상 아바타나 객체에 즉시 재타깃팅할 수 있게 하여 인터랙티브 AR 경험을 확장한다.
  • 미래 지향적 통합 – DisMo는 경량 어댑터를 통해 동작하므로, 더 빠른 diffusion 샘플러나 고해상도 모델 등 기반 비디오 생성기의 개선이 있을 때 별도 재학습 없이 즉시 활용할 수 있다.
  • 행동 이해 API – 움직임 임베딩은 비디오 검색, 추천, 자동 모더레이션 도구를 위한 압축된 기술자 역할을 하며, 원시 픽셀이나 광학 흐름 특징보다 의미론적으로 더 풍부한 대안을 제공한다.

Limitations & Future Work

  • 시간적 범위 – 현재 재구성 손실은 단기 예측(다음 몇 프레임)에 초점을 맞춘다. 복잡한 안무와 같은 장기 의존성은 추가적인 시간 모델링 없이는 성능이 저하될 수 있다.
  • 도메인 격차 – DisMo는 다양한 카테고리 간에 동작하지만, 의료 영상과 만화처럼 극단적인 시각 도메인 차이는 여전히 미세한 아티팩트를 유발한다. 이는 도메인‑적응 파인튜닝이 필요함을 시사한다.
  • 실시간 제약 – 움직임 인코더 자체는 경량이지만, 다운스트림 비디오 생성기(특히 diffusion 기반)는 실시간 적용에 여전히 계산 비용이 크다.
  • 향후 방향 – 저자들은 프레임워크를 다중 모달 조건화(오디오‑구동 움직임)로 확장하고, 장기 시퀀스를 위한 계층적 움직임 코드 도입, 대규모 웹 비디오 코퍼스에 대한 자체 지도 학습을 통해 제로‑샷 이해력을 더욱 향상시키는 방안을 제시한다.

Authors

  • Thomas Ressler-Antal
  • Frank Fundel
  • Malek Ben Alaya
  • Stefan Andreas Baumann
  • Felix Krause
  • Ming Gui
  • Björn Ommer

Paper Information

  • arXiv ID: 2511.23428v1
  • Categories: cs.CV
  • Published: November 28, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…