[Paper] MIBURI: 표현력 있는 인터랙티브 제스처 합성을 향해

발행: 2일 전 (2026년 3월 4일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.03282v1

Overview

이 논문은 MIBURI라는 새로운 프레임워크를 소개합니다. MIBURI는 대화형 음성 대화에 대해 실시간으로 전신 제스처와 얼굴 표정을 생성할 수 있습니다. 파트‑인식 모션 코덱과 인과적이며 2차원적인 트랜스포머를 결합함으로써, 시스템은 현재 LLM 기반 챗봇이나 기존 제스처 합성 파이프라인이 달성하기 어려운, 표현력 있고 상황을 인식하는 움직임을 실시간으로 만들어냅니다.

주요 기여

실시간으로 작동하며 실시간 음성에 동기화되는 최초의 온라인 인과 제스처 합성.
신체 부위 인식 모션 코덱은 계층적 모션을 다중 레벨 이산 토큰으로 압축하여 팔, 몸통, 머리, 얼굴에 대한 세밀한 제어를 가능하게 합니다.
2차원 자기회귀 모델은 시간적 역학과 부위 수준 계층 구조를 동시에 포착하며, LLM에서 파생된 음성‑텍스트 임베딩을 조건으로 사용합니다.
보조 학습 목표(표현력, 다양성, 정적 포즈 회피)는 반복적이거나 고정된 움직임이 아닌 활기차고 다양한 제스처를 장려합니다.
포괄적인 평가는 최근 생성 기반 모델에 비해 뛰어난 자연스러움과 맥락 정렬을 보여주며, 데모 비디오가 공개 검토를 위해 제공됩니다.

Methodology

Motion Tokenization – 원시 모션 캡처 데이터(전신 + 얼굴 마커)를 계층적인 VQ‑VAE‑스타일 코덱에 입력합니다. 코덱은 각 신체 부위별로 별도의 코드북을 학습하여, 거친 포즈와 미세한 움직임 정보를 모두 보존하는 이산 토큰 시퀀스를 생성합니다.
Speech Conditioning – 발화된 음성을 전사하고 대형 언어 모델(LLM)을 사용해 임베딩합니다. 이 임베딩은 의미적 맥락(의도, 감정, 담화 구조)을 포착합니다.
Causal 2‑D Transformer – 토큰을 시간 축과 신체 부위 축으로 구성된 그리드에 배치합니다. 자동 회귀 트랜스포머가 두 축을 가로질러 인과적으로(과거 정보만 사용) 다음 토큰을 예측함으로써, 각 부위의 움직임이 서로 일관되게 진화하도록 합니다.
Auxiliary Losses
- Expressiveness loss: 모델이 더 높은 관절 속도와 진폭을 갖도록 유도합니다.
- Diversity loss: 서로 다른 발화에서 반복되는 토큰 패턴을 벌점으로 처리합니다.
- Static‑pose regularizer: 네트워크가 중립 자세로 수렴하는 것을 방지합니다.
Decoding – 예측된 토큰 스트림을 연속적인 관절 궤적으로 디코딩하고, 이를 30 ms 미만의 지연으로 아바타 엔진에 스트리밍하여 실시간 상호작용에 활용할 수 있습니다.

결과 및 발견

Naturalness: 인간 평가자는 MIBURI‑generated gestures를 세 가지 강력한 베이스라인(최첨단 VAE‑based 방법 포함)보다 78 %의 비교에서 선호했습니다.
Contextual Alignment: 시스템은 의미 단서(예: “big” → 넓은 팔 스윕)를 정확히 반영했으며, 제스처 진폭과 키워드 중요도 사이의 Pearson 상관계수는 0.62로, 베이스라인보다 약 0.15만큼 높은 성능을 보였습니다.
Latency: 엔드‑투‑엔드 추론은 단일 RTX 4090에서 프레임당 약 20 ms로 실행되어 실시간 요구사항(<30 ms)을 여유 있게 충족합니다.
Diversity: 토큰‑레벨 엔트로피가 베이스라인 대비 23 % 증가했으며, 이는 일관성을 해치지 않으면서도 더 풍부한 제스처 어휘를 나타냅니다.

Practical Implications

Live Virtual Assistants – 개발자는 MIBURI를 챗봇 파이프라인에 연결하여 아바타에 현실적인 몸짓을 부여하고, 사용자 참여와 인지된 공감을 높일 수 있습니다.
Remote Collaboration Tools – 실시간 제스처 합성은 화상 회의 아바타를 풍부하게 만들어, 대역폭 제한으로 비디오 스트림이 정지될 때 발생하는 “불편한” 정적을 감소시킵니다.
Game & XR Development – 저지연, 파트 인식 토큰 시스템은 플레이어 대화에 반응하는 즉석 NPC 애니메이션을 가능하게 하여, 사전 제작된 애니메이션 자산을 줄입니다.
Accessibility – 표현력 있는 제스처는 청각 장애 사용자를 위한 시각적 단서로 활용될 수 있으며, 자막이나 수화 오버레이를 보완합니다.
Modular Integration – 모델이 LLM 임베딩을 사용하기 때문에 기존의 음성‑텍스트 변환 또는 언어 이해 스택을 재사용할 수 있어, OpenAI, Anthropic, Cohere API를 이미 사용 중인 팀에게 도입이 간편합니다.

제한 사항 및 향후 연구

학습 데이터 편향 – 모션 코퍼스는 제한된 배우와 문화적 맥락에서 비롯되어, 다양한 사용자 기반에 대한 제스처 스타일을 제한할 수 있습니다.
얼굴 디테일 세분성 – 얼굴 표정이 포함되어 있지만, 현재 코덱은 거친 감정 신호만 포착합니다; 세밀한 입술 싱크와 마이크로 표정은 아직 해결되지 않은 과제입니다.
엣지 디바이스 확장성 – 실시간 성능이 고성능 GPU에서 입증되었으며, 모바일이나 Web‑GL 런타임을 위한 트랜스포머 최적화가 보다 넓은 배포를 위해 필요합니다.
장기 일관성 – 인과 모델은 짧은 대화에서는 뛰어나지만, 긴 독백에서는 흐트러질 수 있습니다; 향후 연구에서는 캐릭터 수준의 제스처 일관성을 유지하기 위해 계층적 메모리 메커니즘을 탐색할 수 있습니다.

MIBURI의 실제 모습을 보고 싶으신가요? 논문에 링크된 데모 영상을 확인하고 차세대 구현형 AI 어시스턴트를 상상해 보세요.

저자

M. Hamza Mughal
Rishabh Dabral
Vera Demberg
Christian Theobalt

논문 정보

arXiv ID: 2603.03282v1
카테고리: cs.CV, cs.GR, cs.HC
출판일: 2026년 3월 3일
PDF: PDF 다운로드

[Paper] MIBURI: 표현력 있는 인터랙티브 제스처 합성을 향해

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SimpliHuMoN: 인간 동작 예측을 간소화

[Paper] ZipMap: Linear-Time Stateful 3D 재구성과 Test-Time Training

[Paper] TaxonRL: 해석 가능한 세밀한 시각적 추론을 위한 중간 보상을 활용한 강화학습

[Paper] RANGER: 희소 게이트 Mixture-of-Experts와 Adaptive Retrieval Re‑ranking을 이용한 병리 보고서 생성