[Paper] 检索增强的 Gaussian Avatars：提升表情泛化

发布: 17小时前 (2026年3月10日 GMT+8 01:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08645v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保持原有的格式。）

概述

本文介绍了 检索增强面孔（RAF），这是一种训练时的数据增强技术，能够显著提升无模板神经头部化身在再现多种面部表情方面的能力。通过从庞大的未标记表情库中提取“最近邻”表情，RAF 教会模型将身份与表情进行解耦，使得化身在面对未见或分布外的动作驱动时更加鲁棒。

Expression fidelity 在 NeRSemble 基准上提升约 10‑15 %，在测量标记点误差和感知相似度时，无论是自驱动（同一受试者驱动）还是跨驱动（不同受试者驱动）均表现提升。
Robustness to distribution shift – 使用 RAF 训练的化身在由原始受试者捕获集未出现的极端或稀有表情驱动时仍能保持视觉质量。
User study (N = 30) 证实，参与者认为检索到的表情比随机基线更接近目标表情，验证了检索质量。
Identity preservation 仍然稳定；得益于将输出锚定到原始身份的重建损失，模型不会将供体的面部特征“泄漏”到目标化身中。

游戏与 VR 开发者 可以通过一次适度的捕捉会话生成高保真、可动画的头部化身，并仍然支持丰富的玩家驱动表情库，而无需重新捕捉每一个细微差别。
直播与虚拟网红工作流 在源表演者做出自发、分布外手势时，可获得更可靠的面部再现。
AR/VR 远程呈现 系统即使在网络受限只能使用低比特率或压缩的表情描述符时，也能保持表情保真度；RAF 训练的模型对这种噪声更具容忍度。
工具集成 —— 由于 RAF 是一种数据增强层，可直接嵌入现有的化身训练脚本（如 PyTorch、TensorFlow），只需极少的代码修改，即可加速采纳。

Bank quality dependence – 增强效果取决于表情库的多样性和覆盖范围；如果表情库填充不足，可能只能带来有限的提升。
Computational overhead – 最近邻检索在训练期间会增加一定成本（尤其是对非常大的表情库），但推理过程保持不变。
No explicit pose handling – 虽然表情描述符隐式捕获姿态信息，但极端的头部旋转仍可能对模型构成挑战；未来工作可以加入独立的姿态增强。
Cross‑identity generalization – 当前设置并未训练模型直接在不同身份之间转移表情；将 RAF 扩展到完全跨身份的范式仍是一个未解的研究方向。