[Paper] StreamAvatar: 실시간 인터랙티브 인간 아바타를 위한 Streaming Diffusion Models
발행: (2025년 12월 27일 오전 12:41 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.22065v1
Overview
논문에서는 StreamAvatar라는 새로운 프레임워크를 소개한다. 이 프레임워크는 고‑품질 확산 모델—전통적으로 느리고 비인과적이었던—을 실시간 스트리밍 생성기로 전환하여 전체 몸을 가진 인간 아바타를 만든다. 자동회귀 증류와 적대적 정제를 결합함으로써, 저자들은 말하고, 듣고, 자연스럽게 제스처를 취할 수 있는 인터랙티브 아바타를 구현했으며, 이를 통해 게임, 가상 회의, AR/VR에서 몰입형 디지털‑휴먼 경험의 문을 열었다.
주요 기여
- 2단계 자동회귀 적응: 강력한 비디오 확산 모델을 인과적이며 빠른 추론 버전으로 증류하여 시각적 품질을 손상시키지 않는다.
- 참조 기반 안정성 메커니즘: Reference Sink와 *Reference‑Anchored Positional Re‑encoding (RAPR)*을 도입하여 스트리밍 프레임 전반에 걸친 장기 시간 일관성을 유지한다.
- 일관성 인식 판별기: 깜빡임이나 드리프트를 명시적으로 벌점하는 적대적 손실로, 장기간 시퀀스에서 부드러운 움직임을 보장한다.
- 원샷 인터랙티브 아바타: 단일 사용자 프롬프트만으로 말하기와 듣기 행동을 모두 생성하며, 일관된 손 및 몸 동작을 포함해 별도의 포즈나 오디오 파이프라인이 필요 없게 만든다.
- 실시간 성능: 단일 RTX 3090에서 30 fps 이상의 생성 속도를 보여주면서 최첨단 시각적 충실도를 유지한다.
방법론
- 기본 확산 모델 – 실제와 같은 전신 움직임을 합성할 수 있는 사전 학습된 고해상도 인간 비디오 확산 모델을 시작점으로 사용하지만, 비인과적이며 배치 단위로 작동합니다.
- 자기회귀 증류 – 모델을 재학습시켜 이전에 생성된 프레임(및 선택적인 오디오 신호)만을 조건으로 다음 프레임을 예측하도록 합니다. 지식 증류를 통해 원본 모델의 품질을 이 인과적 버전으로 이전시켜 추론 지연 시간을 크게 감소시킵니다.
- 레퍼런스 싱크 & RAPR – 초기 프레임의 저차원 “레퍼런스” 임베딩을 매 타임스텝마다 주입합니다. RAPR은 이 레퍼런스를 기준으로 위치 정보를 재인코딩하여 드리프트를 방지하고 정체성과 포즈 연속성을 유지합니다.
- 대립적 정제 – 일관성 인식 판별기가 단기(프레임‑대‑프레임) 및 장기(시퀀스‑레벨) 일관성을 평가하여 생성기가 깜빡임을 없애고 부드러운 제스처를 유지하도록 안내합니다.
- 인터랙티브 제어 – 오디오(음성)와 고수준 의도 신호(예: “듣기”, “질문하기”)를 자기회귀 루프에 입력함으로써 아바타가 사용자 입력에 즉시 반응하도록 합니다.
결과 및 발견
- 시각 품질: 이전 최고 스트리밍 아바타 방법 대비 FVD(프레셋 비디오 거리)를 0.12 개선하여 오프라인 디퓨전 결과와의 격차를 줄였습니다.
- 지연 시간: 단일 GPU에서 33 fps 실시간 스트리밍, 원래 디퓨전 베이스라인 대비 약 5× 속도 향상.
- 상호작용 자연스러움: 사용자 연구(N = 120)에서 StreamAvatar를 사용할 때 제스처와 립싱크의 인지된 자연스러움 점수가 최신 인터랙티브 모델 대비 23 % 더 높게 나타났습니다.
- 안정성: Reference Sink 또는 RAPR을 제거하면 약 2 초 후에 눈에 띄는 드리프트가 발생하여 장기 일관성에 대한 그들의 역할을 확인합니다.
실용적 함의
- 게임 개발: 개발자는 고품질의 전체 몸 NPC를 실시간으로 플레이어 음성에 반응하도록 삽입할 수 있어, 수작업 애니메이션 리그의 필요성을 줄일 수 있습니다.
- 가상 회의 및 원격 협업: 기업은 사용자 표정과 제스처를 실시간으로 반영하는 실감 나는 아바타를 배포하여, 대역폭이 많이 소모되는 비디오 스트림 없이 존재감을 향상시킬 수 있습니다.
- AR/VR 소셜 플랫폼: StreamAvatar의 낮은 지연 시간은 몰입형 헤드셋의 제한된 모션‑투‑포톤 예산에 맞아, 공유 가상 공간에서 자연스러운 손 제스처 커뮤니케이션을 가능하게 합니다.
- 콘텐츠 제작: 스튜디오는 단일 스크립트만으로 빠른 “토킹 헤드” 또는 전체 몸 데모를 생성하여, 모션 캡처 세션 및 후반 작업 시간을 줄일 수 있습니다.
- 에지 배포: 자동 회귀형, 증류된 모델을 고성능 모바일 GPU에서 온‑디바이스 추론을 위해 추가 양자화할 수 있어, 오프라인 아바타 경험의 가능성을 열어줍니다.
제한 사항 및 향후 작업
- 하드웨어 의존성: 실시간 성능은 현재 고성능 데스크톱 GPU가 필요합니다; 모바일 급 하드웨어로 축소하려면 추가 모델 압축이 필요합니다.
- 오디오 전용 조건화: 음성이 입술 싱크를 구동하지만, 미묘한 억양이나 감정 톤이 완전히 포착되지 않아 표현 깊이가 제한됩니다.
- 다양한 체형에 대한 일반화: 학습 데이터가 제한된 체형에 집중되어 있어, 분포 외 아바타는 아티팩트가 나타날 수 있습니다.
- 향후 방향: 저자들은 다중 모달 조건화(예: 텍스트 + 감정 임베딩) 탐색, 극단적인 움직임을 위한 경량 포즈 사전 통합, 그리고 프레임워크를 다중 아바타 상호작용으로 확장할 것을 제안합니다.
저자
- Zhiyao Sun
- Ziqiao Peng
- Yifeng Ma
- Yi Chen
- Zhengguang Zhou
- Zixiang Zhou
- Guozhen Zhang
- Youliang Zhang
- Yuan Zhou
- Qinglin Lu
- Yong-Jin Liu
Paper Information
- arXiv ID: 2512.22065v1
- 카테고리: cs.CV, cs.AI, cs.HC
- 발행일: 2025년 12월 26일
- PDF: PDF 다운로드