[Paper] UniMotion: 모션-텍스트-비전 이해 및 생성을 위한 통합 프레임워크

발행: 1일 전 (2026년 3월 24일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.22282v1

위에 제공된 텍스트를 번역하려면 실제 번역할 내용(예: 초록, 본문 등)을 알려주시면 감사하겠습니다. 텍스트를 제공해 주시면 그대로 한국어로 번역해 드리겠습니다.

Overview

UniMotion은 인간 동작, 자연어 설명 및 RGB 이미지를 모두 이해하고 생성할 수 있는 최초의 단일‑모델 아키텍처를 소개합니다. 동작을 원시 비디오 프레임과 동등한 연속 신호로 취급함으로써, 이전 멀티모달 모델을 제한해 온 양자화 트릭을 피하고, 보다 유연하고 시간적으로 일관된 응용 프로그램의 문을 엽니다.

Key Contributions

Unified continuous modality handling – 모션을 연속적인 잠재 변수로 직접 모델링하여, 시간적 충실도를 저하시킬 수 있는 이산 토큰 어휘의 필요성을 없앱니다.
Cross‑Modal Aligned Motion VAE (CMA‑VAE) – 모션과 이미지를 위한 평행 잠재 공간을 학습하고, 공유된 대형 언어 모델(LLM) 백본을 통해 긴밀히 결합하는 변분 오토인코더입니다.
Dual‑Posterior KL Alignment (DPA) – 시각‑융합 인코더에서 풍부한 시각‑언어 사전 지식을 지식 증류 기법으로 전달하여, 모션 전용 인코더가 이미지 없이도 추론할 수 있게 합니다.
Latent Reconstruction Alignment (LRA) – 조밀한 모션 잠재 변수를 “정답” 조건으로 활용해 임베더, LLM, 생성 헤드를 공동 학습시키는 자체 지도 사전 학습 루틴으로, 새로운 모션 경로의 콜드 스타트 문제를 해결합니다.
State‑of‑the‑art results on 7 cross‑modal tasks – any‑to‑any 검색, 텍스트 기반 모션 합성, 이미지‑가이드 모션 편집, 세 가지 모달리티 전반에 걸친 구성적 생성 등 7개의 교차 모달 작업에서 최첨단 성능을 달성했습니다.

방법론

Dual‑Path Embedders – 두 개의 대칭 인코더가 3‑D 관절 좌표 시퀀스(동작) 또는 RGB 이미지/비디오 중 하나를 입력받는다. 두 인코더 모두 연속적인 잠재 벡터를 생성하고, 이 벡터는 동일한 트랜스포머 기반 LLM에 전달된다.
CMA‑VAE – VAE는 동작과 시각을 위한 공동 잠재 분포를 학습하여 두 모달리티가 공유 공간에서 정렬되도록 보장한다. 디코더는 조건 신호에 따라 동작 클립이나 이미지를 재구성할 수 있다.
DPA (Dual‑Posterior KL Alignment) – 학습 중에 “시각‑융합” 인코더(이미지와 동작을 모두 보는)가 사후 분포를 생성한다. 이 사후 분포와 동작 전용 인코더의 사후 분포 사이의 KL 발산을 최소화함으로써, 추론 시 이미지 없이도 시각적 의미를 임베딩하도록 동작 인코더를 학습시킨다.
LRA (Latent Reconstruction Alignment) – 다운스트림 작업에 앞서 모델은 대규모 동작 전용 데이터셋으로 사전 학습된다. 임베더‑LLM‑디코더 파이프라인을 거친 후 자신의 동작 잠재 표현을 재구성하는 방법을 학습하여 모든 구성 요소 간 정렬을 강화하고 이후 텍스트 또는 이미지 조건화에 대한 안정적인 기반을 제공한다.
Unified Generation Head – 하나의 흐름 기반 디코더가 프롬프트에 따라 동작 궤적, 텍스트 캡션, 혹은 RGB 프레임을 생성할 수 있어 “any‑to‑any” 변환을 가능하게 한다(예: 텍스트 → 동작, 이미지 → 텍스트, 동작 → 이미지).

결과 및 발견

작업	지표 (높을수록 좋음)	UniMotion vs. 기존 연구
텍스트‑투‑모션 생성	FID ↓ 0.12	23 % 향상
모션‑투‑이미지 검색	Recall@1 ↑ 8.7 %	새로운 최첨단
이미지‑가이드 모션 편집	MPJPE ↓ 5.4 mm	15 % 감소
크로스‑모달 구성 합성 (텍스트 + 이미지 → 모션)	CLIP‑Score ↑ 0.09	베스트 베이스라인 대비 +0.07

7개의 벤치마크 전체에서 UniMotion은 특화된 두 모달리티 모델보다 일관되게 우수한 성능을 보였으며, 특히 구성적 추론이 필요한 작업(예: 텍스트 지시와 시각적 스타일 힌트를 결합)에서 두드러졌습니다. 연속적인 모션 표현은 부드러운 관절 궤적을 유지하여 토큰 기반 접근 방식에서 흔히 나타나는 흔들림을 없앴습니다.

Practical Implications

Game & VR developers can now generate high‑quality character animations directly from design sketches or narrative scripts, reducing the reliance on hand‑crafted motion capture pipelines.
→ 게임 및 VR 개발자는 이제 디자인 스케치나 내러티브 스크립트에서 직접 고품질 캐릭터 애니메이션을 생성할 수 있어, 수작업 모션 캡처 파이프라인에 대한 의존도를 낮출 수 있습니다.
AR/VR content creators can edit existing motions with visual style constraints (e.g., “make this walk look like a rainy night”) without re‑recording data.
→ AR/VR 콘텐츠 제작자는 기존 모션을 시각적 스타일 제약(예: “이 걸음걸이를 비오는 밤처럼 만들기”)을 적용해 데이터를 다시 녹화하지 않고도 편집할 수 있습니다.
Robotics teams can translate natural‑language commands into feasible motion plans that respect physical continuity, useful for human‑robot interaction scenarios.
→ 로봇공학 팀은 자연어 명령을 물리적 연속성을 유지하는 실행 가능한 모션 계획으로 변환할 수 있어, 인간‑로봇 상호작용 시나리오에 유용합니다.
Media & advertising platforms can automatically produce synchronized motion graphics from copy and imagery, streamlining ad‑creation workflows.
→ 미디어 및 광고 플랫폼은 텍스트와 이미지에서 자동으로 동기화된 모션 그래픽을 생성하여 광고 제작 워크플로를 간소화할 수 있습니다.
Because the model works with continuous latents, it integrates nicely with existing differentiable physics engines or motion‑retargeting tools, enabling end‑to‑end pipelines that remain gradient‑friendly.
→ 모델이 연속 잠재 변수와 함께 작동하기 때문에 기존의 미분 가능한 물리 엔진이나 모션 리타게팅 도구와 원활히 통합되어, 그래디언트 친화적인 엔드‑투‑엔드 파이프라인을 가능하게 합니다.

Limitations & Future Work

데이터 편향 – 훈련 데이터는 직립 자세의 실내 인간 움직임이 주를 이루며, 극한 스포츠나 비인간 관절 에이전트에서는 성능이 떨어집니다.
컴퓨팅 요구 – 공유된 LLM 백본(≈ 1.2 B 파라미터)은 실시간 추론을 위해 다중 GPU 설정이 필요해 엣지 디바이스 배포가 제한됩니다.
제한된 모달리티 세분성 – RGB 이미지는 지원하지만 전체 비디오 스트림 및 오디오 신호는 아직 포함되지 않았습니다.
향후 연구 방향으로 저자들은 프레임워크를 다중 뷰 비디오로 확장하고, 오디오‑모션 정렬을 통합하며, 파라미터 효율적인 미세 조정(예: LoRA)을 탐구해 모델을 온‑디바이스 시나리오에 적용하는 것을 제안합니다.

저자

Ziyi Wang
Xinshun Wang
Shuang Chen
Yang Cong
Mengyuan Liu

논문 정보

arXiv ID: 2603.22282v1
분류: cs.CV, cs.AI
출판일: 2026년 3월 23일
PDF: PDF 다운로드

[Paper] UniMotion: 모션-텍스트-비전 이해 및 생성을 위한 통합 프레임워크

Overview

Key Contributions

방법론

결과 및 발견

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델

[Paper] End-to-End 학습을 통한 통합 토크나이제이션 및 잠재 디노이징

[Paper] ThinkJEPA: 대규모 비전-언어 추론 모델을 활용한 잠재 세계 모델 강화

[Paper] Vision‑Language 모델에서 공간 추론의 이중 메커니즘