[Paper] SARAH: 공간 인식 실시간 에이전시 인간

발행: (2026년 2월 21일 오전 03:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.18432v1

개요

이 논문은 SARAH를 소개한다 – 실시간으로 완전 인과적인 시스템으로, 대화 중 가상 에이전트에게 공간 인식을 부여한다. 사용자의 3‑D 위치와 이중 오디오를 공동으로 처리함으로써, SARAH는 제스처를 음성에 맞추는 것뿐만 아니라 아바타를 대화 상대에게 향하도록 회전시키고 시선 강도를 실시간으로 제어하는 전신 움직임을 생성한다. 이는 스트리밍 VR 헤드셋에서 초당 수백 프레임으로 실행될 수 있는 최초의 접근 방식으로, 진정으로 인터랙티브한 디지털 휴먼의 가능성을 열어준다.

주요 기여

  • 첫 번째 인과적(causal), 스트리밍 아키텍처를 공간 인식 대화형 모션에 적용하여 저지연 디바이스(예: VR 헤드셋)에서 추론 가능.
  • Hybrid VAE‑Transformer + flow‑matching 모델로 잠재 토큰을 교차 삽입하여 연속 스트리밍을 수행하고, 모션을 사용자 궤적과 오디오 모두에 조건화.
  • 분류기‑무료 가이던스(classifier‑free guidance)를 활용한 시선 점수화 메커니즘으로, 학습된 자연스러운 눈맞춤 행동을 추론 시 사용자가 제어하는 시선 강도와 분리.
  • Embody 3D 데이터셋에서 최첨단 motion quality를 달성, >300 FPS(≈ 기존 비인과적 베이스라인보다 3배 빠름).
  • 실시간 VR 데모를 통해 텔레프레즌스 시나리오에서 엔드‑투‑엔드 배포 검증.

방법론

  1. 입력 스트림 – 시스템은 두 개의 실시간 스트림을 받는다: (a) 사용자의 3‑D 위치(머리와 손 트래커)와 (b) 이중 오디오 파형.
  2. 인과 VAE‑Transformer – 변분 오토인코더가 과거 동작 프레임을 잠재 공간에 인코딩한다. 인과 트랜스포머가 이러한 잠재값을 토큰 단위로 처리하여 각 출력이 이미 관찰된 데이터에만 의존하도록 보장한다(미래를 미리 보지 않음).
  3. 교차 삽입된 잠재 토큰 – 연속 스트리밍을 지원하기 위해 잠재 토큰을 최신 사용자 자세와 오디오 특징을 담은 “제어 토큰”과 교차 삽입하여 모델이 매 프레임마다 예측을 업데이트할 수 있게 한다.
  4. Flow‑Matching 디코더 – 전통적인 자동회귀 디코더 대신, flow‑matching 네트워크가 잠재 궤적을 사용자 궤적 및 오디오에 조건화된 전체 몸 관절 위치로 직접 매핑한다. 이를 통해 빠르고 고품질의 동작 합성이 가능하다.
  5. 시선 점수 및 Classifier‑Free 가이드 – 경량 분류기가 잠재 표현으로부터 “시선 점수”(얼마나 자연스러운 눈 맞춤인지)를 예측한다. 추론 중에 개발자는 이 점수를 높이거나 낮추어 아바타가 사용자에게 바라보는 강도를 모델 재학습 없이 효과적으로 제어할 수 있다.

결과 및 발견

  • Motion Quality – Embody 3D 벤치마크에서 SARAH는 이전 비인과적 방법들을 객관적 지표(예: 평균 관절당 오류 감소)와 인간 인지 연구(참가자들이 SARAH의 아바타를 더 자연스럽다고 평가) 모두에서 능가합니다.
  • Speed – 파이프라인은 소비자용 GPU에서 >300 FPS로 실행되며, 이는 최고 비인과적 기준선보다 대략 3× faster(3배 빠른) 속도로, 몰입형 VR을 위한 10 ms 미만 지연 요구사항을 충족합니다.
  • Spatial Dynamics – 모델은 미세한 대화 신호를 포착합니다: 움직이는 사용자를 향해 몸통을 회전시키고, 어깨 방향을 조정하며, 학습된 스코어링 함수를 기반으로 시선을 조절합니다.
  • Live Demo – VR 텔레프레즌스 테스트에서, 사용자는 정적 아바타 대비 더 부드러운 상호작용과 강한 존재감을 보고했습니다.

실용적 시사점

  • VR/AR 텔레프레즌스 – 개발자는 SARAH를 소셜 VR 플랫폼에 통합하여 아바타가 자동으로 참가자를 향하고 바라보게 할 수 있어 원격 회의가 보다 자연스럽게 느껴집니다.
  • 디지털 어시스턴트 및 교육 시뮬레이션 – 실시간 공간 인식을 통해 가상 코치, 고객 서비스 봇, 의료 트레이너가 훈련생의 위치에 반응할 수 있어 참여도와 학습 성과가 향상됩니다.
  • 게임 개발 – NPC가 이제 컷신이나 인터랙티브 대화 중에 사전 녹화된 애니메이션 블렌드 없이도 설득력 있는 눈 맞춤과 몸 방향을 유지할 수 있습니다.
  • 저지연 배포 – 이 방법은 완전 인과적이며 수백 FPS로 실행되므로 클라우드 백엔드 없이도 엣지 디바이스(독립형 VR 헤드셋, AR 안경)에 적용 가능해 프라이버시를 보호하고 대역폭을 절감합니다.

제한 사항 및 향후 작업

  • 데이터셋 편향 – SARAH는 주로 스크립트된 2인 대화를 포함하는 Embody 3D 데이터셋으로 학습되었습니다; 혼잡하거나 매우 동적인 다중 사용자 장면에서의 성능은 아직 테스트되지 않았습니다.
  • 오디오 전용 조건화 – 시스템은 깨끗한 2인 오디오에 의존합니다; 소음이 많은 환경이나 겹치는 말은 제스처와 말의 정렬을 저하시킬 수 있습니다.
  • 세밀한 제어 – 시선 강도는 제어 가능하지만, 다른 표현 파라미터(예: 얼굴 미세 표정, 손 제스처 스타일)는 개발자에게 명시적으로 제공되지 않습니다.
  • 향후 방향 – 모델을 다인 설정으로 확장하고, 강인한 음성 분리 프런트엔드를 통합하며, 개인화된 움직임을 위한 사용자 편집 가능한 스타일 토큰을 추가하는 것이 다음 단계로 강조됩니다.

저자

  • Evonne Ng
  • Siwei Zhang
  • Zhang Chen
  • Michael Zollhoefer
  • Alexander Richard

논문 정보

  • arXiv ID: 2602.18432v1
  • 분류: cs.CV
  • 출판일: 2026년 2월 20일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 강인한 객체 인식을 위한 Latent Equivariant Operators: 약속과 도전

딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.