[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어

발행: 3일 전 (2026년 2월 14일 오전 03:52 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.13185v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다. (코드 블록, URL 및 마크다운 형식은 그대로 유지됩니다.)

Overview

FlexAM은 생성 AI에서 가장 어려운 문제 중 하나인 비디오 합성에 대해 개발자에게 세밀하면서도 직관적인 제어를 제공하는 문제를 해결합니다. appearance(무엇이 어떻게 보이는지)와 motion(무엇이 어떻게 움직이는지)을 명확히 분리함으로써, 이 프레임워크는 몇 가지 고수준 신호만으로 비디오를 편집, 리믹스 또는 생성할 수 있게 하여 실제 제품에 비디오 생성이 훨씬 실용적이 되도록 합니다.

주요 기여

3‑D 제어 신호를 포인트‑클라우드로: 비디오의 전체 시공간 동역학을 단일, 조작 가능한 구조로 인코딩합니다.
다중 주파수 위치 인코딩: 거친 움직임과 미세한 움직임 단서를 모두 포착하여 부드러움을 손상시키지 않으면서 정밀한 편집을 가능하게 합니다.
깊이 인식 인코딩: 장면 기하학을 포함시켜 움직임이 가림 및 원근 변화에 맞게 작동하도록 합니다.
유연한 정밀도‑품질 트레이드오프: 사용자가 필요에 따라 정확한 움직임 충실도 또는 높은 시각적 품질을 우선시할 수 있는 조정 가능한 제어 표현입니다.
다양한 작업을 위한 통합 파이프라인: 단일 모델 내에서 이미지‑투‑비디오(I2V), 비디오‑투‑비디오(V2V) 편집, 카메라 경로 제어 및 국부 객체 조작을 처리합니다.

방법론

FlexAM은 확산 기반 비디오 생성기를 기반으로 하지만 일반적인 2‑D 조건(예: 광류 또는 키프레임)을 3‑D 포인트‑클라우드 제어 신호로 대체합니다:

제어 포인트 클라우드 생성 – 각 프레임에 대해, 이 방법은 픽셀 위치, 깊이, 시간 정보를 인코딩하는 3‑D 공간의 점들을 샘플링합니다.
위치 인코딩 레이어 –
- 다중 주파수: 여러 주파수에서 사인파 임베딩을 적용하여 네트워크가 빠르고 흔들리는 움직임과 느리고 부드러운 제스처를 구분할 수 있게 합니다.
- 깊이 인식: 깊이에 비례해 스케일된 임베딩을 추가하여 멀리 있는 점들이 다른 신호를 받게 함으로써 올바른 시차와 가림 현상을 유지합니다.
외관‑동작 디코더 – 확산 모델은 두 개의 스트림을 받습니다: (a) 참조 이미지 또는 프레임에서 파생된 정적 외관 임베딩, 그리고 (b) 동적 제어 포인트 클라우드. 디코더는 이 스트림들을 재구성하여 일관된 비디오 프레임을 생성하도록 학습합니다.
유연성 메커니즘 – 추론 시 스칼라 가중치를 조정하여 모델이 제어 포인트에 더 엄격히 따르도록(높은 정밀도) 할지, 혹은 더 부드럽고 고품질의 텍스처를 생성하도록(높은 품질) 할지를 선택할 수 있습니다.

모든 구성 요소는 대규모 비디오 데이터셋에서 엔드‑투‑엔드로 학습되지만, 제어 신호 자체는 작업에 구애받지 않음을 의미하므로 동일한 모델을 다양한 다운스트림 편집 시나리오에 재사용할 수 있습니다.

Results & Findings

작업	지표 (높을수록 좋음)	FlexAM vs. 기존 기술
I2V synthesis (FID)	12.3	‑30 % improvement
V2V motion transfer (LPIPS)	0.18	‑22 % reduction
Camera path editing (PSNR)	28.7 dB	+3.5 dB
Local object edit (IoU)	0.71	+0.09

작업 전반에 걸친 일관된 품질: FlexAM은 해당 작업에 특화된 베이스라인보다도 뛰어났으며, 베이스라인이 단일 작업에 맞게 튜닝된 경우에도 우수한 성능을 보였습니다.
사용자 연구: 참가자 85 %가 현실감과 제어 가능성 측면에서 FlexAM이 생성한 편집을 선호했습니다.
소거 실험: 깊이 인식 인코딩을 제거하면 움직임 일관성이 15 % 감소했으며, 다중 주파수 인코딩을 제외하면 세밀한 움직임 충실도가 약 20 % 감소했습니다.

실용적 함의

콘텐츠 제작 파이프라인: 비디오 편집자는 이제 수동 키프레임을 단일 포인트‑클라우드 스케치로 대체할 수 있어, 모션 리타게팅 및 스타일 전송을 크게 가속화합니다.
AR/VR 경험: 개발자는 씬마다 재학습 없이 사용자 제어 카메라 리그에 반응하는 몰입형 비디오 배경을 생성할 수 있습니다.
자동화된 비디오 개인화: 브랜드는 기존 영상에 제품 모습을 삽입하면서 원래 모션을 유지하여 대량 맞춤형 광고를 가능하게 합니다.
게임 자산 생성: 절차적 애니메이션 파이프라인은 FlexAM을 사용해 간단한 포즈 클라우드에서 현실적인 캐릭터 모션을 합성함으로써 모션‑캡처 데이터에 대한 의존도를 줄일 수 있습니다.

제한 사항 및 향후 연구

데이터 집약적 학습: 모델은 견고한 외관‑운동 분리를 학습하기 위해 여전히 크고 다양한 비디오 코퍼스를 필요로 합니다.
제어 세분성: 포인트 클라우드 밀도가 낮을 경우, 매우 고주파 움직임(예: 빠르게 움직이는 입자)이 충분히 표현되지 않을 수 있습니다.
실시간 추론: 현재 확산 샘플링은 저지연 애플리케이션에 최적화되지 않았으며, 저자들은 가속 샘플러나 증류 기법을 탐색할 것을 제안합니다.

향후 연구 방향으로는 의미 단서(예: 객체 라벨)를 포함하도록 제어 신호를 확장하고, 효율성을 개선하여 온‑디바이스 배포를 가능하게 하며, 오디오‑구동 움직임 제어와 같은 교차 모달 조건부 방식을 탐구하는 것이 포함됩니다.

저자

Mingzhi Sheng
Zekai Gu
Peng Li
Cheng Lin
Hao‑Xiang Guo
Ying‑Cong Chen
Yuan Liu

논문 정보

arXiv ID: 2602.13185v1
분류: cs.CV, cs.GR
출판일: 2026년 2월 13일
PDF: PDF 다운로드

[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어

Overview

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

[Paper] Monocular Markerless Motion Capture가 Upper Extremity Reachable Workspace의 정량적 평가를 가능하게 한다

[Paper] LongStream: 긴 시퀀스 스트리밍 자기회귀 시각 기하학

[Paper] Diffusion Models를 활용한 얼굴 임베딩 기반 실감 나는 얼굴 재구성