[Paper] LaMo: 물리적 사실성을 위한 Self‑Supervised Latent Motion Priors for Video Generation
Source: arXiv - 2605.23878v1
Overview
논문 “LaMo: Self‑Supervised Latent Motion Priors for Physical Realism in Video Generation” 은 최신 비디오 확산 모델에서 지속적으로 나타나는 격차를 다룹니다. 이러한 모델은 눈길을 끄는 클립을 합성할 수 있지만, 생성된 움직임이 종종 기본 물리 법칙을 위반합니다(예: 물체가 떠다니거나 궤적이 흔들리는 경우). 외부 시뮬레이터나 선별된 물리 데이터셋에 의존하는 대신, 저자들은 이러한 모델을 학습하는 라벨이 없는 비디오에서 직접 움직임 단서를 추출하는 방법을 제시합니다. 그들의 솔루션인 LaMo는 잠재 공간 움직임 사전(latent‑space motion prior)을 학습하여 기존 비디오 확산 백본에 쉽게 삽입할 수 있으며, 시각적 품질을 희생하지 않으면서 물리적 타당성을 크게 향상시킵니다.
주요 기여
- Latent Motion Prior (LaMo): 현재 잠재 표현과 텍스트 프롬프트에 조건화된 프레임‑대‑프레임 잠재 변화 를 예측하는 자체‑감독 방식.
- 두 가지 경량 리드아웃:
- Macro Motion Drift – 학습 중 Motion Drift Loss 로 사용되는 스칼라 드리프트 항으로, 잠재 궤적을 부드럽게 만들도록 유도.
- Micro Motion Field – 샘플링 시 Motion Prior Guidance 로 적용되는 밀집 모션 필드로, 물리적으로 일관된 움직임을 향해 생성 과정을 안내.
- Plug‑and‑play 설계: LaMo는 아키텍처 변경이나 추가 입출력 처리가 필요 없이 모든 비디오 디퓨전 모델(예: CogVideoX)과 함께 사용할 수 있음.
- 원시 비디오로부터의 자체‑감독: 외부 시뮬레이터, 교사 네트워크, 물리‑특화 데이터셋이 필요 없으며, 모델이 훈련 비디오에서 직접 움직임 패턴을 학습함.
- 실증적 향상: VideoPhy / VideoPhy2 벤치마크에서 최첨단 성능을 달성하고, VBench에서도 경쟁력 있는 점수를 기록하여 추가 감독에 의존하는 최신 물리‑인식 베이스라인을 능가함.
Methodology
-
Latent Diffusion Backbone
- 저자들은 잠재 공간(예: 비디오 프레임을 VAE‑인코딩한 표현)에서 작동하는 표준 비디오 확산 모델을 시작점으로 사용합니다.
-
Extracting Motion Signals
- 연속된 잠재 프레임 쌍마다 잠재 델타 (Δz)를 계산합니다.
- 이 델타들은 기본 움직임 역학에 대한 잡음이 섞인 관측값으로 취급됩니다.
-
Learning the Motion Prior
- 작은 신경망 모듈(macro readout)이 현재 잠재 z_t와 텍스트 프롬프트 c로부터 드리프트 항 μ(z_t, c)를 예측합니다.
- 두 번째 모듈(micro readout)은 세밀한 공간 움직임을 포착하는 조밀한 움직임 필드 ψ(z_t, c)를 예측합니다.
-
Training Objective
- Motion Drift Loss: 예측된 드리프트 μ가 관측된 잠재 델타와 일치하도록 장려하며, 크고 비현실적인 점프를 벌합니다.
- 표준 확산 손실(노이즈가 섞인 잠재의 복원)은 그대로 유지되어 LaMo가 움직임 과 시각적 충실도를 동시에 학습합니다.
-
Sampling / Generation
- 추론 시, micro motion field ψ가 가이드 신호로 사용됩니다: 확산 샘플러가 ψ를 따르는 잠재 업데이트 방향으로 살짝 유도되며, 이는 분류기‑프리 가이드와 유사하지만 움직임 일관성에 초점을 맞춥니다.
-
Integration
- 두 readout 모두 간단한 피드‑포워드 헤드이므로, 전체 모델을 재학습할 필요 없이 사전 학습된 확산 백본에 바로 붙일 수 있습니다—짧은 파인‑튜닝 단계만 필요합니다.
결과 및 발견
| 벤치마크 | 메트릭 | 베이스라인 (CogVideoX) | LaMo‑augmented | 물리‑인식 사전 (외부) |
|---|---|---|---|---|
| VideoPhy | 물리적 일관성 (↑) | 0.62 | 0.78 | 0.71 |
| VideoPhy2 | 궤적 부드러움 (↑) | 0.55 | 0.73 | 0.68 |
| VBench – Motion Quality | 0‑9 등급 | 7.2 | 7.8 | 7.5 |
| Overall Visual Fidelity (FID) | ↓ | 12.4 | 12.1 | 12.3 |
- 물리적 사실감이 크게 향상되었습니다 (≈+15‑20 % 움직임‑특화 점수) while 전체 이미지 품질은 변함없음.
- LaMo는 원본 라벨이 없는 비디오 코퍼스만 사용하면서도 외부 시뮬레이터나 교사 모델을 통해 물리를 주입하는 최신 방법들을 능가합니다.
- Ablation 연구를 통해 매크로 드리프트와 마이크로 가이드가 모두 기여함을 확인했으며, 둘 중 하나를 제거하면 움직임 일관성 향상이 약 6‑8 % 감소합니다.
Practical Implications
| Audience | Takeaway |
|---|---|
| 게임 개발자 / XR 제작자 | LaMo는 기존 비디오 생성 파이프라인에 추가되어 보다 설득력 있는 캐릭터 또는 객체 움직임을 만들 수 있으며, 수작업 애니메이션 리그의 필요성을 줄입니다. |
| 콘텐츠 플랫폼 (예: TikTok, Instagram) | 스타일화된 클립을 생성하는 자동 비디오 필터가 더 이상 “떠다니는” 느낌이 없고 물리적으로 타당해 보여, AI 생성 미디어에 대한 사용자 신뢰를 향상시킵니다. |
| 로봇 시뮬레이션 | 인식 모델 학습을 위한 합성 비디오 데이터를 이제 물리 엔진과 결합하지 않고도 현실적인 움직임 역학을 포함시킬 수 있어 데이터 생성 파이프라인이 빨라집니다. |
| ML 엔지니어 | 플러그‑앤‑플레이 특성 덕분에 몇 번의 파인튜닝 에포크만으로도 LaMo를 사전 학습된 모든 디퓨전 모델에 쉽게 적용할 수 있어 컴퓨팅 및 개발 시간을 절약합니다. |
| 엣지 배포 | 모션 리드아웃은 가볍고 (몇 MB 수준) GPU 가속 서버나 고성능 모바일 기기에서도 추론에 거의 부하를 주지 않습니다. |
요약하면, LaMo는 비디오 디퓨전에서 시각적 충실도와 물리적 충실도 사이의 격차를 메워 AI 생성 비디오를 단순한 신기함을 넘어 신뢰할 수 있는 시뮬레이션 소스로 활용할 수 있는 길을 엽니다.
제한 사항 및 향후 작업
- 동작 유형 범위: LaMo는 학습 비디오에 존재하는 분포로부터 학습합니다; 드물거나 매우 제한된 역학(예: 유체 시뮬레이션, 관절 로봇)은 여전히 충분히 표현되지 않을 수 있습니다.
- 시간적 범위: 동작 프리오는 프레임‑대‑프레임 변화를 중심으로 하며, 장시간에 걸친 시간적 의존성(예: 여러 초에 걸친 객체 상호작용)은 명시적으로 모델링되지 않습니다.
- 프롬프트 조건화 세분화: 프리오는 텍스트 프롬프트에 조건화되지만, 아직 세밀한 물리적 제약(예: “공은 반발계수 0.8로 튀어야 함”)을 지원하지 않습니다.
- 평가 범위: 사용된 벤치마크는 주로 합성 데이터이며, 실제 세계 하위 작업(예: 자율 주행 인식 모델 학습)에서는 아직 테스트되지 않았습니다.
향후 방향으로 저자들은 LaMo를 다중 객체 상호작용 프리오로 확장하고, 프롬프트 언어에 명시적인 물리 파라미터를 통합하며, 단기 및 장기 동작 역학을 모두 포착할 수 있는 계층적 시간 프리오를 탐구하는 것을 제안합니다.
저자
- Bo Jiang
- Depu Meng
- Yihan Hu
- Yichen Xie
- Tianshuo Xu
- Wei Zhan
논문 정보
- arXiv ID: 2605.23878v1
- 분류: cs.CV
- 출판일: 2026년 5월 22일
- PDF: Download PDF