[Paper] Physics in 2-Steps: 시각적 정제가 이를 지우기 전에 Motion Priors 잠금
Source: arXiv - 2606.06361v1
Overview
Image-to-Video diffusion 모델은 입력 이미지를 활용해 시각적으로 뛰어난 콘텐츠를 생성하지만, 물리 법칙을 위반하는 움직임을 자주 만들어냅니다. 우리는 놀라운 사실을 발견했습니다: 2단계 생성이 동일한 모델의 50단계 출력보다 물리적 일관성이 더 높을 수 있다는 것입니다. 스펙트럼 분석을 통해 이는 디노이징 과정에서 위상이 침식되기 때문임을 확인했습니다; 위상은 2단계에서 50단계까지 약 18 % 감소하는 반면, 크기(magnitude)는 상대적으로 안정적입니다.
이 통찰을 바탕으로 우리는 PhaseLock이라는 훈련‑무료 프레임워크를 제안합니다. 이는 몇 단계 추론에서 얻은 유효한 움직임 사전(prior)을 디노이징 전체 경로에 걸쳐 보존합니다. 물리적 일관성을 위해 전체 단계 추론에 의존하는 대신, PhaseLock은 단 2단계에서 움직임 사전을 추출하고 이를 Latent Delta Guidance를 통해 고품질 생성에 적용합니다. 우리의 접근법은 위상 퇴화를 효과적으로 완화시켜, 다양한 모델에서 평균 6.2 포인트의 물리적 일관성 향상을 달성하면서 시각적 충실도는 크게 유지하고, 오버헤드도 거의 없습니다(시간 1.06×, 메모리 1.02×). 또한 비용이 많이 드는 외부 가이드 방법에 대한 의존도도 크게 감소시킵니다(≈ 5× 시간 절감).
Key Contributions
- 연구 분야: cs.CV
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.CV 분야의 발전에 기여합니다.
Authors
- Woojung Han
- Seil Kang
- Youngjun Jun
- Min‑Hung Chen
- Fu‑En Yang
- Seong Jae Hwang
Paper Information
- arXiv ID: 2606.06361v1
- Categories: cs.CV
- Published: June 4, 2026
- PDF: Download PDF