[논문] MotiMotion: 시각적 추론 기반 모션 제어 비디오 생성
Source: arXiv - 2605.22818v1
개요
이 논문은 MotiMotion이라는 새로운 접근법을 제시한다. 단일 이미지를 사용자가 지정한 움직임을 따르면서도 상식적이고 물리적으로 타당한 방식으로 동영상으로 변환한다. 움직임 제어를 추론‑후‑생성 문제로 다룸으로써, 저자들은 희소하고 종종 모호한 사용자 궤적과 실제 장면이 요구하는 풍부하고 인과적인 역학 사이의 격차를 메운다.
핵심 기여
- 추론‑우선 파이프라인: 기본 움직임 단서를 정제하고 인과적으로 일관된 2차 움직임을 생성하기 위해 학습이 필요 없는 비전‑언어 모델(VLM)을 도입한다.
- 신뢰도‑인식 제어: VLM의 신뢰도에 따라 움직임 가이드의 강도를 조절하는 새로운 방식으로, 생성 모델이 낮은 신뢰도의 입력을 보정하도록 한다.
- MotiBench: 2차 효과(예: 물체가 밀려 반응하는 상황)를 명시적으로 테스트하는 인터랙션 중심 이미지‑투‑비디오 과제들을 모아 만든 벤치마크.
- 종합 평가: VLM 기반 자동 메트릭과 대규모 인간 연구를 결합하여, 최신 움직임 제어 비디오 생성기 대비 일관된 향상을 보인다.
방법론
- 입력 – 이미지와 기본 궤적 포인트 집합(예: 왼쪽으로 움직이는 손)
- 비주얼‑언어 추론기 – 사전 학습된 VLM(예: BLIP‑2 또는 GPT‑4‑V)을 프롬프트하여:
- 원시 좌표를 정제(더 부드럽고 물리적으로 타당하게)
- 2차 움직임을 예측(예: 손이 밀면 컵이 기울어지는 경우)
- 각 예측 움직임에 대한 신뢰도 점수를 출력
- 신뢰도‑인식 제어 – 비디오 디퓨전 모델은 정제된 궤적과 VLM 신뢰도에서 파생된 단계별 가중치를 함께 받는다. 신뢰도가 높은 단계는 엄격히 따르고, 신뢰도가 낮은 단계는 모델이 학습한 사전 지식에 의존하도록 하여 아티팩트를 감소시킨다.
- 생성 – 잠재 디퓨전 비디오 생성기(Imagen‑Video / Stable Diffusion‑Video 기반)가 시각적 내용과 움직임 계획 모두에 조건화되어 최종 클립을 합성한다.
전체 파이프라인은 추론 구성 요소에 대해 학습이 필요 없으며, 이는 개발자가 비디오 모델을 재학습하지 않고도 기존 VLM을 그대로 연결할 수 있음을 의미한다.
결과 및 발견
- 정량적: MotiBench에서 MotiMotion은 VLM 기반 움직임 타당성 점수를 약 12 % 향상시키고, 궤적 편차 메트릭을 18 % 감소시켜 가장 강력한 베이스라인보다 우수한 성능을 보였다.
- 인간 연구: 2,000명 응답자의 쌍대 비교에서 참가자들은 MotiMotion의 영상을 68 % 선호했으며, 보다 자연스러운 물체 상호작용과 “부유” 아티팩트 감소를 이유로 들었다.
- 소거 실험: 신뢰도‑인식 가중치를 제거하면 성능이 베이스라인 수준으로 떨어져 이 요소의 중요성을 확인했다. 또한 2차 움직임 추론을 비활성화하면 공이 벽을 통과하는 등 눈에 띄게 비현실적인 결과가 나타났다.
실용적 함의
- 인터랙티브 콘텐츠 제작: 게임 디자이너와 AR/VR 개발자는 대략적인 움직임 경로를 스케치하고 MotiMotion이 현실적인 2차 역학을 채워 프로토타이핑 속도를 높일 수 있다.
- 로봇 시뮬레이션: 인과 물리를 준수하는 합성 비디오 데이터는 비전 기반 조작 정책 학습을 향상시킬 수 있다.
- 교육 및 훈련: 강사는 “넘어진 병에 의해 발생한 쏟아짐”과 같은 ‘what‑if’ 시나리오 영상을, 세부 애니메이션을 일일이 만들 필요 없이 생성할 수 있다.
- 저자원 배포: 추론 모듈이 학습이 필요 없기 때문에 기존 비디오 생성 파이프라인을 간단한 VLM API 호출만으로 업그레이드할 수 있어, 대규모 컴퓨팅 예산이 없는 스튜디오도 기술을 활용할 수 있다.
제한 사항 및 향후 연구
- VLM 품질 의존성: 추론 단계는 기본 비전‑언어 모델의 편향과 환상을 그대로 물려받으며, 때때로 비현실적인 2차 움직임이 관찰된다.
- 해상도 및 길이: 실험은 256×256 해상도와 ≤8초 클립에 한정되었으며, 고해상도·장시간 비디오로 확장하는 것은 아직 과제로 남아 있다.
- 도메인 특수성: MotiBench는 일상적인 실내 상호작용에 초점을 맞추었으며, 야외 혹은 고역동성 장면(예: 스포츠)에 대한 성능은 아직 평가되지 않았다.
향후 연구 방향으로는 물리 시뮬레이터와의 통합을 통한 인과적 근거 강화, 다중 에이전트 상황에 대한 신뢰도‑인식 스키마 확장, 그리고 추론 구성 요소를 스트레스 테스트할 수 있는 더 크고 다양화된 벤치마크 구축이 있다.
저자
- Lee Hsin-Ying
- Hanwen Jiang
- Yiqun Mei
- Jing Shi
- Ming-Hsuan Yang
- Zhixin Shu
논문 정보
- arXiv ID: 2605.22818v1
- 분류: cs.CV
- 발표일: 2026년 5월 21일
- PDF: Download PDF