[Paper] 检索增强的 Gaussian Avatars:提升表情泛化

发布: (2026年3月10日 GMT+8 01:24)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.08645v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。)

概述

本文介绍了 检索增强面孔(RAF),这是一种训练时的数据增强技术,能够显著提升无模板神经头部化身在再现多种面部表情方面的能力。通过从庞大的未标记表情库中提取“最近邻”表情,RAF 教会模型将身份与表情进行解耦,使得化身在面对未见或分布外的动作驱动时更加鲁棒。

关键贡献

  • 检索增强训练管线,将主体的部分表情特征替换为来自大型未标记库中视觉相似表情的特征。
  • 表情多样性提升,无需额外标注、跨身份配对数据或对底层头像架构进行修改。
  • 定量和用户研究验证,表明检索到的邻居在姿势和表情上感知更接近,且 RAF 在 NeRSemble 基准(包括自驱动和跨驱动)上带来一致的提升。
  • 身份‑表情解耦分析,展示该增强迫使变形场在超出标准训练期间所见的有限表情集合时实现更好的泛化。

方法论

  1. 收集表情库 – 一个大型的面部帧库,采集自众多受试者,但没有任何标签(例如,“微笑”,“皱眉”)。
  2. 特征提取 – 每帧使用与头像模型相同的编码器,编码为紧凑的表情描述符。
  3. 最近邻检索 – 对于目标受试者的每个训练帧,将其表情描述符的一个小随机子集替换为库中最近匹配的描述符(基于特征空间的欧氏距离)。
  4. 重建损失 – 模型仍然尝试重建原始目标帧,即使输入的一部分来自不同的身份。这迫使变形网络学习一种在更广泛的表情条件下仍能保持受试者身份的映射。
  5. 照常继续训练 – 无需架构更改,无需额外监督,检索步骤轻量(可以预先计算或使用近似最近邻索引实时执行)。

结果与发现

  • Expression fidelity 在 NeRSemble 基准上提升约 10‑15 %,在测量标记点误差和感知相似度时,无论是自驱动(同一受试者驱动)还是跨驱动(不同受试者驱动)均表现提升。
  • Robustness to distribution shift – 使用 RAF 训练的化身在由原始受试者捕获集未出现的极端或稀有表情驱动时仍能保持视觉质量。
  • User study (N = 30) 证实,参与者认为检索到的表情比随机基线更接近目标表情,验证了检索质量。
  • Identity preservation 仍然稳定;得益于将输出锚定到原始身份的重建损失,模型不会将供体的面部特征“泄漏”到目标化身中。

实际意义

  • 游戏与 VR 开发者 可以通过一次适度的捕捉会话生成高保真、可动画的头部化身,并仍然支持丰富的玩家驱动表情库,而无需重新捕捉每一个细微差别。
  • 直播与虚拟网红工作流 在源表演者做出自发、分布外手势时,可获得更可靠的面部再现。
  • AR/VR 远程呈现 系统即使在网络受限只能使用低比特率或压缩的表情描述符时,也能保持表情保真度;RAF 训练的模型对这种噪声更具容忍度。
  • 工具集成 —— 由于 RAF 是一种数据增强层,可直接嵌入现有的化身训练脚本(如 PyTorch、TensorFlow),只需极少的代码修改,即可加速采纳。

限制与未来工作

  • Bank quality dependence – 增强效果取决于表情库的多样性和覆盖范围;如果表情库填充不足,可能只能带来有限的提升。
  • Computational overhead – 最近邻检索在训练期间会增加一定成本(尤其是对非常大的表情库),但推理过程保持不变。
  • No explicit pose handling – 虽然表情描述符隐式捕获姿态信息,但极端的头部旋转仍可能对模型构成挑战;未来工作可以加入独立的姿态增强。
  • Cross‑identity generalization – 当前设置并未训练模型直接在不同身份之间转移表情;将 RAF 扩展到完全跨身份的范式仍是一个未解的研究方向。

作者

  • Matan Levy
  • Gavriel Habib
  • Issar Tzachor
  • Dvir Samuel
  • Rami Ben‑Ari
  • Nir Darshan
  • Or Litany
  • Dani Lischinski

论文信息

  • arXiv ID: 2603.08645v1
  • 分类: cs.CV, cs.GR, cs.LG
  • 发表时间: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……