[Paper] MIBURI:面向富有表现力的交互式手势合成

发布: (2026年3月4日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.03282v1

(请提供您希望翻译的具体文本内容,我才能为您进行简体中文翻译。)

概述

本文介绍了 MIBURI,一个新颖的框架,能够为口语对话实时生成全身手势和面部表情。通过将面向部件的运动编解码器与因果的二维 Transformer 结合,该系统能够实时产生富有表现力、上下文感知的动作——这是当前基于 LLM 的聊天机器人和现有手势合成流水线难以实现的。

关键贡献

  • 首次在线、因果手势合成,能够实时运行并与实时语音同步。
  • 部位感知运动编解码器,将层次运动压缩为多层离散令牌,实现对手臂、躯干、头部和面部的细粒度控制。
  • 二维自回归模型,在时间动态和部位层次上联合建模,条件基于 LLM 派生的语音文本嵌入。
  • 辅助训练目标(表现力、多样性、避免静态姿势),鼓励产生活泼、多变的手势,而非重复或僵硬的动作。
  • 全面评估显示相较于近期生成基线在自然度和上下文对齐方面具有优势,并已发布演示视频供公众检视。

方法论

  1. 动作标记化 – 原始动作捕捉数据(全身 + 面部标记)被输入到层次化的 VQ‑VAE 风格编解码器中。该编解码器为每个身体部位学习独立的码本,生成一系列离散标记,既保留粗略姿势也保留细微运动细节。
  2. 语音条件化 – 将口语转录并使用大型语言模型(LLM)进行嵌入。这些嵌入捕获语义上下文(意图、情感、话语结构)。
  3. 因果 2‑D Transformer – 将标记排列成网格,一轴为时间,另一轴为身体部位。自回归 Transformer 在两个轴上 因果 预测下一个标记(仅使用过去信息),确保每个部位的运动与其他部位一致演进。
  4. 辅助损失
    • 表达性损失:推动模型产生更高的关节速度和幅度。
    • 多样性损失:惩罚不同语句之间重复的标记模式。
    • 静态姿势正则化:防止网络坍缩到中性姿势。
  5. 解码 – 将预测的标记流解码回连续的关节轨迹,可以 <30 ms 的延迟流式传输至化身引擎,适用于实时交互。

结果与发现

  • 自然度:在人类评估者的比较中,78 % 的情况下他们更倾向于 MIBURI‑generated 手势,而非三种强基线(包括最先进的基于 VAE 的方法)。
  • 上下文对齐:系统能够正确映射语义线索(例如,“big” → 大幅度手臂扫动),手势幅度与关键词显著性的 Pearson 相关系数为 0.62,较基线提升约 0.15。
  • 延迟:端到端推理在单个 RTX 4090 上每帧约 20 ms,轻松满足实时要求(<30 ms)。
  • 多样性:相较于基线,令牌层熵提升了 23 %,表明手势词汇更丰富且仍保持连贯性。

实际意义

  • Live Virtual Assistants – 开发者可以将 MIBURI 接入聊天机器人流水线,为化身提供逼真的身体语言,提升用户参与度和感知同理心。
  • Remote Collaboration Tools – 实时手势合成可以丰富视频会议化身,在带宽限制视频流时减少“诡异”的静止感。
  • Game & XR Development – 低延迟、部件感知的 token 系统支持即时 NPC 动画,能够对玩家对话作出反应,减少预制动画资产的需求。
  • Accessibility – 富有表现力的手势可以为听障用户提供视觉提示,补充字幕或手语覆盖。
  • Modular Integration – 由于模型使用 LLM 嵌入,任何现有的语音转文本或语言理解堆栈都可以复用,使得已经使用 OpenAI、Anthropic 或 Cohere API 的团队能够轻松采用。

限制与未来工作

  • 训练数据偏差 – 动作语料库来源于有限的演员和文化背景,这可能限制对多元用户群体的手势风格。
  • 面部细节粒度 – 虽然包含了面部表情,但当前编解码器仅捕获粗略的情感线索;细粒度的唇形同步和微表情仍是未解决的挑战。
  • 向边缘设备的可扩展性 – 实时性能已在高端 GPU 上展示;为了更广泛的部署,需要对 Transformer 进行移动端或 Web‑GL 运行时的优化。
  • 长篇一致性 – 因果模型在短对话中表现出色,但在长时间独白时可能出现漂移;未来工作可以探索层次记忆机制,以保持角色层面的手势一致性。

准备好观看 MIBURI 的实际效果了吗?请查看论文中链接的演示视频,想象下一代具身 AI 助手的可能性。

作者

  • M. Hamza Mughal
  • Rishabh Dabral
  • Vera Demberg
  • Christian Theobalt

论文信息

  • arXiv ID: 2603.03282v1
  • 分类: cs.CV, cs.GR, cs.HC
  • 发表时间: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……