[Paper] UniMotion: 모션-텍스트-비전 이해 및 생성을 위한 통합 프레임워크

발행: (2026년 3월 24일 AM 02:59 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2603.22282v1

위에 제공된 텍스트를 번역하려면 실제 번역할 내용(예: 초록, 본문 등)을 알려주시면 감사하겠습니다. 텍스트를 제공해 주시면 그대로 한국어로 번역해 드리겠습니다.

Overview

UniMotion은 인간 동작, 자연어 설명 및 RGB 이미지를 모두 이해하고 생성할 수 있는 최초의 단일‑모델 아키텍처를 소개합니다. 동작을 원시 비디오 프레임과 동등한 연속 신호로 취급함으로써, 이전 멀티모달 모델을 제한해 온 양자화 트릭을 피하고, 보다 유연하고 시간적으로 일관된 응용 프로그램의 문을 엽니다.

Key Contributions

  • Unified continuous modality handling – 모션을 연속적인 잠재 변수로 직접 모델링하여, 시간적 충실도를 저하시킬 수 있는 이산 토큰 어휘의 필요성을 없앱니다.
  • Cross‑Modal Aligned Motion VAE (CMA‑VAE) – 모션과 이미지를 위한 평행 잠재 공간을 학습하고, 공유된 대형 언어 모델(LLM) 백본을 통해 긴밀히 결합하는 변분 오토인코더입니다.
  • Dual‑Posterior KL Alignment (DPA) – 시각‑융합 인코더에서 풍부한 시각‑언어 사전 지식을 지식 증류 기법으로 전달하여, 모션 전용 인코더가 이미지 없이도 추론할 수 있게 합니다.
  • Latent Reconstruction Alignment (LRA) – 조밀한 모션 잠재 변수를 “정답” 조건으로 활용해 임베더, LLM, 생성 헤드를 공동 학습시키는 자체 지도 사전 학습 루틴으로, 새로운 모션 경로의 콜드 스타트 문제를 해결합니다.
  • State‑of‑the‑art results on 7 cross‑modal tasks – any‑to‑any 검색, 텍스트 기반 모션 합성, 이미지‑가이드 모션 편집, 세 가지 모달리티 전반에 걸친 구성적 생성 등 7개의 교차 모달 작업에서 최첨단 성능을 달성했습니다.

방법론

  1. Dual‑Path Embedders – 두 개의 대칭 인코더가 3‑D 관절 좌표 시퀀스(동작) 또는 RGB 이미지/비디오 중 하나를 입력받는다. 두 인코더 모두 연속적인 잠재 벡터를 생성하고, 이 벡터는 동일한 트랜스포머 기반 LLM에 전달된다.

  2. CMA‑VAE – VAE는 동작과 시각을 위한 공동 잠재 분포를 학습하여 두 모달리티가 공유 공간에서 정렬되도록 보장한다. 디코더는 조건 신호에 따라 동작 클립이나 이미지를 재구성할 수 있다.

  3. DPA (Dual‑Posterior KL Alignment) – 학습 중에 “시각‑융합” 인코더(이미지와 동작을 모두 보는)가 사후 분포를 생성한다. 이 사후 분포와 동작 전용 인코더의 사후 분포 사이의 KL 발산을 최소화함으로써, 추론 시 이미지 없이도 시각적 의미를 임베딩하도록 동작 인코더를 학습시킨다.

  4. LRA (Latent Reconstruction Alignment) – 다운스트림 작업에 앞서 모델은 대규모 동작 전용 데이터셋으로 사전 학습된다. 임베더‑LLM‑디코더 파이프라인을 거친 후 자신의 동작 잠재 표현을 재구성하는 방법을 학습하여 모든 구성 요소 간 정렬을 강화하고 이후 텍스트 또는 이미지 조건화에 대한 안정적인 기반을 제공한다.

  5. Unified Generation Head – 하나의 흐름 기반 디코더가 프롬프트에 따라 동작 궤적, 텍스트 캡션, 혹은 RGB 프레임을 생성할 수 있어 “any‑to‑any” 변환을 가능하게 한다(예: 텍스트 → 동작, 이미지 → 텍스트, 동작 → 이미지).

결과 및 발견

작업지표 (높을수록 좋음)UniMotion vs. 기존 연구
텍스트‑투‑모션 생성FID ↓ 0.1223 % 향상
모션‑투‑이미지 검색Recall@1 ↑ 8.7 %새로운 최첨단
이미지‑가이드 모션 편집MPJPE ↓ 5.4 mm15 % 감소
크로스‑모달 구성 합성 (텍스트 + 이미지 → 모션)CLIP‑Score ↑ 0.09베스트 베이스라인 대비 +0.07

7개의 벤치마크 전체에서 UniMotion은 특화된 두 모달리티 모델보다 일관되게 우수한 성능을 보였으며, 특히 구성적 추론이 필요한 작업(예: 텍스트 지시와 시각적 스타일 힌트를 결합)에서 두드러졌습니다. 연속적인 모션 표현은 부드러운 관절 궤적을 유지하여 토큰 기반 접근 방식에서 흔히 나타나는 흔들림을 없앴습니다.

Practical Implications

  • Game & VR developers can now generate high‑quality character animations directly from design sketches or narrative scripts, reducing the reliance on hand‑crafted motion capture pipelines.
    게임 및 VR 개발자는 이제 디자인 스케치나 내러티브 스크립트에서 직접 고품질 캐릭터 애니메이션을 생성할 수 있어, 수작업 모션 캡처 파이프라인에 대한 의존도를 낮출 수 있습니다.

  • AR/VR content creators can edit existing motions with visual style constraints (e.g., “make this walk look like a rainy night”) without re‑recording data.
    AR/VR 콘텐츠 제작자는 기존 모션을 시각적 스타일 제약(예: “이 걸음걸이를 비오는 밤처럼 만들기”)을 적용해 데이터를 다시 녹화하지 않고도 편집할 수 있습니다.

  • Robotics teams can translate natural‑language commands into feasible motion plans that respect physical continuity, useful for human‑robot interaction scenarios.
    로봇공학 팀은 자연어 명령을 물리적 연속성을 유지하는 실행 가능한 모션 계획으로 변환할 수 있어, 인간‑로봇 상호작용 시나리오에 유용합니다.

  • Media & advertising platforms can automatically produce synchronized motion graphics from copy and imagery, streamlining ad‑creation workflows.
    미디어 및 광고 플랫폼은 텍스트와 이미지에서 자동으로 동기화된 모션 그래픽을 생성하여 광고 제작 워크플로를 간소화할 수 있습니다.

  • Because the model works with continuous latents, it integrates nicely with existing differentiable physics engines or motion‑retargeting tools, enabling end‑to‑end pipelines that remain gradient‑friendly.
    → 모델이 연속 잠재 변수와 함께 작동하기 때문에 기존의 미분 가능한 물리 엔진이나 모션 리타게팅 도구와 원활히 통합되어, 그래디언트 친화적인 엔드‑투‑엔드 파이프라인을 가능하게 합니다.

Limitations & Future Work

  • 데이터 편향 – 훈련 데이터는 직립 자세의 실내 인간 움직임이 주를 이루며, 극한 스포츠나 비인간 관절 에이전트에서는 성능이 떨어집니다.
  • 컴퓨팅 요구 – 공유된 LLM 백본(≈ 1.2 B 파라미터)은 실시간 추론을 위해 다중 GPU 설정이 필요해 엣지 디바이스 배포가 제한됩니다.
  • 제한된 모달리티 세분성 – RGB 이미지는 지원하지만 전체 비디오 스트림 및 오디오 신호는 아직 포함되지 않았습니다.
  • 향후 연구 방향으로 저자들은 프레임워크를 다중 뷰 비디오로 확장하고, 오디오‑모션 정렬을 통합하며, 파라미터 효율적인 미세 조정(예: LoRA)을 탐구해 모델을 온‑디바이스 시나리오에 적용하는 것을 제안합니다.

저자

  • Ziyi Wang
  • Xinshun Wang
  • Shuang Chen
  • Yang Cong
  • Mengyuan Liu

논문 정보

  • arXiv ID: 2603.22282v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 3월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »