[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어
Source: arXiv - 2602.13185v1
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 마크다운 형식은 그대로 유지됩니다.)
Overview
FlexAM은 생성 AI에서 가장 어려운 문제 중 하나인 비디오 합성에 대해 개발자에게 세밀하면서도 직관적인 제어를 제공하는 문제를 해결합니다. appearance(무엇이 어떻게 보이는지)와 motion(무엇이 어떻게 움직이는지)을 명확히 분리함으로써, 이 프레임워크는 몇 가지 고수준 신호만으로 비디오를 편집, 리믹스 또는 생성할 수 있게 하여 실제 제품에 비디오 생성이 훨씬 실용적이 되도록 합니다.
주요 기여
- 3‑D 제어 신호를 포인트‑클라우드로: 비디오의 전체 시공간 동역학을 단일, 조작 가능한 구조로 인코딩합니다.
- 다중 주파수 위치 인코딩: 거친 움직임과 미세한 움직임 단서를 모두 포착하여 부드러움을 손상시키지 않으면서 정밀한 편집을 가능하게 합니다.
- 깊이 인식 인코딩: 장면 기하학을 포함시켜 움직임이 가림 및 원근 변화에 맞게 작동하도록 합니다.
- 유연한 정밀도‑품질 트레이드오프: 사용자가 필요에 따라 정확한 움직임 충실도 또는 높은 시각적 품질을 우선시할 수 있는 조정 가능한 제어 표현입니다.
- 다양한 작업을 위한 통합 파이프라인: 단일 모델 내에서 이미지‑투‑비디오(I2V), 비디오‑투‑비디오(V2V) 편집, 카메라 경로 제어 및 국부 객체 조작을 처리합니다.
방법론
FlexAM은 확산 기반 비디오 생성기를 기반으로 하지만 일반적인 2‑D 조건(예: 광류 또는 키프레임)을 3‑D 포인트‑클라우드 제어 신호로 대체합니다:
- 제어 포인트 클라우드 생성 – 각 프레임에 대해, 이 방법은 픽셀 위치, 깊이, 시간 정보를 인코딩하는 3‑D 공간의 점들을 샘플링합니다.
- 위치 인코딩 레이어 –
- 다중 주파수: 여러 주파수에서 사인파 임베딩을 적용하여 네트워크가 빠르고 흔들리는 움직임과 느리고 부드러운 제스처를 구분할 수 있게 합니다.
- 깊이 인식: 깊이에 비례해 스케일된 임베딩을 추가하여 멀리 있는 점들이 다른 신호를 받게 함으로써 올바른 시차와 가림 현상을 유지합니다.
- 외관‑동작 디코더 – 확산 모델은 두 개의 스트림을 받습니다: (a) 참조 이미지 또는 프레임에서 파생된 정적 외관 임베딩, 그리고 (b) 동적 제어 포인트 클라우드. 디코더는 이 스트림들을 재구성하여 일관된 비디오 프레임을 생성하도록 학습합니다.
- 유연성 메커니즘 – 추론 시 스칼라 가중치를 조정하여 모델이 제어 포인트에 더 엄격히 따르도록(높은 정밀도) 할지, 혹은 더 부드럽고 고품질의 텍스처를 생성하도록(높은 품질) 할지를 선택할 수 있습니다.
모든 구성 요소는 대규모 비디오 데이터셋에서 엔드‑투‑엔드로 학습되지만, 제어 신호 자체는 작업에 구애받지 않음을 의미하므로 동일한 모델을 다양한 다운스트림 편집 시나리오에 재사용할 수 있습니다.
Results & Findings
| 작업 | 지표 (높을수록 좋음) | FlexAM vs. 기존 기술 |
|---|---|---|
| I2V synthesis (FID) | 12.3 | ‑30 % improvement |
| V2V motion transfer (LPIPS) | 0.18 | ‑22 % reduction |
| Camera path editing (PSNR) | 28.7 dB | +3.5 dB |
| Local object edit (IoU) | 0.71 | +0.09 |
- 작업 전반에 걸친 일관된 품질: FlexAM은 해당 작업에 특화된 베이스라인보다도 뛰어났으며, 베이스라인이 단일 작업에 맞게 튜닝된 경우에도 우수한 성능을 보였습니다.
- 사용자 연구: 참가자 85 %가 현실감과 제어 가능성 측면에서 FlexAM이 생성한 편집을 선호했습니다.
- 소거 실험: 깊이 인식 인코딩을 제거하면 움직임 일관성이 15 % 감소했으며, 다중 주파수 인코딩을 제외하면 세밀한 움직임 충실도가 약 20 % 감소했습니다.
실용적 함의
- 콘텐츠 제작 파이프라인: 비디오 편집자는 이제 수동 키프레임을 단일 포인트‑클라우드 스케치로 대체할 수 있어, 모션 리타게팅 및 스타일 전송을 크게 가속화합니다.
- AR/VR 경험: 개발자는 씬마다 재학습 없이 사용자 제어 카메라 리그에 반응하는 몰입형 비디오 배경을 생성할 수 있습니다.
- 자동화된 비디오 개인화: 브랜드는 기존 영상에 제품 모습을 삽입하면서 원래 모션을 유지하여 대량 맞춤형 광고를 가능하게 합니다.
- 게임 자산 생성: 절차적 애니메이션 파이프라인은 FlexAM을 사용해 간단한 포즈 클라우드에서 현실적인 캐릭터 모션을 합성함으로써 모션‑캡처 데이터에 대한 의존도를 줄일 수 있습니다.
제한 사항 및 향후 연구
- 데이터 집약적 학습: 모델은 견고한 외관‑운동 분리를 학습하기 위해 여전히 크고 다양한 비디오 코퍼스를 필요로 합니다.
- 제어 세분성: 포인트 클라우드 밀도가 낮을 경우, 매우 고주파 움직임(예: 빠르게 움직이는 입자)이 충분히 표현되지 않을 수 있습니다.
- 실시간 추론: 현재 확산 샘플링은 저지연 애플리케이션에 최적화되지 않았으며, 저자들은 가속 샘플러나 증류 기법을 탐색할 것을 제안합니다.
향후 연구 방향으로는 의미 단서(예: 객체 라벨)를 포함하도록 제어 신호를 확장하고, 효율성을 개선하여 온‑디바이스 배포를 가능하게 하며, 오디오‑구동 움직임 제어와 같은 교차 모달 조건부 방식을 탐구하는 것이 포함됩니다.
저자
- Mingzhi Sheng
- Zekai Gu
- Peng Li
- Cheng Lin
- Hao‑Xiang Guo
- Ying‑Cong Chen
- Yuan Liu
논문 정보
- arXiv ID: 2602.13185v1
- 분류: cs.CV, cs.GR
- 출판일: 2026년 2월 13일
- PDF: PDF 다운로드