[Paper] StreamAvatar：用于实时交互式人类化身的Streaming Diffusion Models

发布: 1个月前 (2025年12月26日 GMT+8 23:41)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.22065v1

Overview

本文介绍了 StreamAvatar，一个新颖的框架，将高保真扩散模型——传统上速度慢且非因果——转化为实时流式生成器，用于全身人类化身。通过将自回归蒸馏与对抗式细化相结合，作者实现了能够自然地说话、倾听和做手势的交互式化身，为游戏、虚拟会议和 AR/VR 中的沉浸式数字人体验打开了大门。

Two‑stage autoregressive adaptation：在不牺牲视觉质量的前提下，将强大的视频扩散模型蒸馏为因果的、快速推理版本。
Reference‑based stability mechanisms：引入 Reference Sink 与 Reference‑Anchored Positional Re‑encoding (RAPR)，在流式帧之间保持长期的时间一致性。
Consistency‑aware discriminator：一种对抗性损失，显式惩罚闪烁或漂移，确保在长序列上的平滑运动。
One‑shot interactive avatar：仅通过单一用户提示即可生成说话和倾听行为——包括连贯的手部和身体姿势——无需额外的姿态或音频流水线。
Real‑time performance：在单块 RTX 3090 上实现 >30 fps 的生成速度，同时保持业界领先的视觉保真度。

Base Diffusion Model – 从一个预训练的高分辨率人类视频扩散模型开始，该模型能够合成逼真的全身动作，但以非因果、批处理的方式运行。
Autoregressive Distillation – 将模型重新训练，使其仅在先前生成的帧（以及可选的音频提示）条件下预测下一帧。知识蒸馏将原始模型的质量转移到这个因果版本，从而显著降低推理延迟。
Reference Sink & RAPR – 在每个时间步注入初始帧的低维“参考”嵌入。RAPR 重新编码相对于该参考的位置信息，防止漂移并保持身份和姿态的连续性。
Adversarial Refinement – Consistency‑Aware Discriminator 评估短期（帧间）和长期（序列级）的一致性，引导生成器消除闪烁并保持平滑的手势。
Interactive Control – 音频（语音）和高级意图信号（例如 “listen”、 “ask a question”）被输入到自回归循环中，使化身能够即时响应用户输入。