[Paper] Gaussian Pixel Codec Avatars:一种用于高效渲染的混合表示

发布: (2025年12月18日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2512.15711v1

概述

本文介绍了 Gaussian Pixel Codec Avatars (GPiCA),这是一种从少量多视角照片生成逼真 3‑D 头部化身并能在移动硬件上实时渲染的新方法。通过将经典三角网格与各向异性 3‑D 高斯相融合,GPiCA 在提供近期神经渲染化身的视觉保真度的同时,使内存使用和计算成本与传统基于网格的流水线持平。

关键贡献

  • 混合表示 – 将低开销的三角网格(用于皮肤类表面)与一组三维各向异性高斯(用于头发、胡须及其他体积细节)相结合。
  • 统一可微渲染器 – 将网格视为体积渲染框架(Gaussian splatting)中的半透明层,实现从多视角图像的端到端训练。
  • 表情解码网络 – 单个神经网络将紧凑的表情代码映射到三个输出:(1) 三维人脸网格,(2) RGBA 纹理,(3) 三维高斯云。
  • 移动端就绪性能 – 渲染速度可与纯网格头像相当(≈30–60 fps 于现代智能手机),且不牺牲全高斯头像的真实感。
  • 全面评估 – 定量(PSNR、SSIM)和定性比较表明 GPiCA 在使用更少内存的情况下,匹配或超越最先进的高斯头像。

方法论

  1. 数据获取 – 使用对人物头部的短多视角捕获(≈5–10 张不同角度的图像)作为监督。
  2. 混合资产生成
    • 网格分支 预测顶点位置和用于光滑皮肤区域的标准 UV 映射纹理。
    • 高斯分支 预测一组各向异性的 3‑D 高斯(位置、协方差、颜色、不透明度),自然地建模头发、胡须以及其他半透明结构。
  3. 可微渲染管线
    • 将网格光栅化为半透明层(alpha‑blended),然后与高斯的体积 splatting 合成。
    • 两层共享相同的相机投影,允许一次前向传播生成最终图像。
  4. 训练 – 解码网络通过光度损失(像素级 L2)、感知损失(VGG 特征)以及保持高斯数量低且网格行为良好的正则项进行优化。
  5. 推理 – 在运行时,解码器接收低维表情代码(例如 blendshape 权重),并即时输出更新后的网格 + 高斯云,统一渲染器实时绘制。

结果与发现

指标纯高斯化身仅网格化身GPiCA
PSNR (dB)31.228.731.0
SSIM0.940.880.93
内存 (MB)451218
移动端 FPS(Apple A14)255552
  • 视觉质量:GPiCA 再现细腻的头发细节和皮肤的微妙阴影,而仅网格方法会遗漏这些,同时避免了纯高斯点绘有时出现的“块状”伪影。
  • 效率:混合模型的内存使用约比完整的高斯化身少 40 %,在中端智能手机上运行速度超过 50 fps,满足 AR/VR 聊天应用的延迟要求。
  • 表情保真度:表情解码器可以使用单个 10 维代码向量驱动逼真的面部动作(微笑、皱眉),实现平滑过渡且没有明显延迟。

Practical Implications

  • AR/VR 社交平台 – 开发者可以在消费手机上实时更新逼真的头部化身,实现更沉浸的虚拟会议,无需云渲染。
  • 游戏与化身 – 混合流水线可以作为即插即用的资产类型集成到现有游戏引擎(Unity/Unreal)中;网格部分由标准流水线处理,而高斯云则通过轻量计算着色器渲染。
  • 远程呈现与协作 – 通过低带宽传输紧凑的表情代码(而非完整视频),降低网络负载,同时保持逼真的存在感。
  • 内容创作工具 – 工作室可以通过快速拍照生成高质量化身,减少手动绑定和发型建模的时间。
  • 边缘 AI 推理 – 解码网络体积小于 5 MB,可在设备上运行,意味着表情更新无需服务器端推理。

限制与未来工作

  • 头发动力学 – 当前的高斯云是静态的;实现真实的运动(例如风、头部转动)需要动态的高斯更新或基于物理的扩展。
  • 全身可扩展性 – 本文聚焦于头部;将混合表示扩展到躯干或全身化身可能会遇到内存或渲染瓶颈。
  • 捕获要求 – 虽然该方法在少视角下也能工作,但极端光照变化或遮挡会降低学习到的高斯的质量。
  • 作者提出的未来方向 包括:学习用于动画高斯的时序模型、集成神经纹理压缩以进一步降低内存占用、以及探索用于其他非刚性物体(例如服装)的混合流水线。

作者

  • Divam Gupta
  • Anuj Pahuja
  • Nemanja Bartolovic
  • Tomas Simon
  • Forrest Iandola
  • Giljoo Nam

论文信息

  • arXiv ID: 2512.15711v1
  • 分类: cs.CV, cs.GR
  • 发表时间: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »