[Paper] 大规模高质量 3D 高斯头部重建来自多视角捕获

发布: 5天前 (2026年5月6日 GMT+8 01:55)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.04035v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

Overview

HeadsUp 引入了一种前馈管线，能够将数千张高分辨率多摄像头图像转换为由 Gaussian splats 表示的详细 3‑D 头部模型。通过为每个主体学习紧凑的潜在代码，系统可以在一次前向传递中重建新头部——无需针对每个主体进行优化——从而使其在大规模生产管线（如头像创建、虚拟制作或 AR/VR 体验）中具有实用性。

关键贡献

可扩展的编码器‑解码器架构，将任意数量的输入视图压缩为固定大小的潜在向量。
基于 UV 参数化的 3‑D 高斯表示，锚定在中性头部模板上，使高斯数量与图像分辨率或视图数量解耦。
在前所未有的数据集上进行训练，包含超过 10 k 名受试者（约是之前多视角头部语料库的 10 倍），展示了对未见身份的强大泛化能力。
最先进的重建质量，无需任何测试时优化，超越现有的神经渲染和基于网格的方法。
展示了下游实用性： (1) 潜在空间插值用于生成新颖的 3‑D 身份，(2) 使用表情混合形状驱动重建的头部，实现实时动画。

方法论

Data Ingestion – 多摄像头装置从多个角度捕获数十张高分辨率的RGB图像，记录受试者头部。
Encoder – 轻量级CNN对每个视角独立处理，提取每视角特征。这些特征通过池化（例如最大池化或注意力）合并为单个 latent vector，概括受试者的几何形状和外观。
Decoder – 将潜在向量输入全连接解码器，预测一组密集的3‑D高斯分布参数，这些高斯分布放置在UV映射的中性头部模板上。每个高斯存储位置、协方差（形状）、颜色和不透明度。
Rendering – 推理阶段，使用 splatting（类似流行的 “3‑D Gaussian Splatting” 技术）对高斯云进行光栅化，生成逼真的新视角图像。
Training Objective – 结合多视角光度损失、感知损失以及对高斯大小/重叠的正则化，确保模型的保真度和稳定性。

由于 UV 布局将每个高斯固定在模板的特定位置，Gaussian 的数量保持不变，无论使用多少输入图像，这使得模型能够摄取极高分辨率的数据而不会导致内存爆炸。

结果与发现

定量：HeadsUp 将 LPIPS（Learned Perceptual Image Patch Similarity）降低约 15 %，并使 PSNR 提升约 2 dB，相较于此前最佳的多视角头部重建基线。
定性：重建的头部能够保留细微的发丝、皮肤纹理以及精确的耳朵几何形状，即使在测试时仅提供 8–12 张视图。
可扩展性：通过改变训练主体数量、输入视图数量和解码器容量的实验显示出可预测的权衡：潜在维度加倍可带来约 0.5 dB 的 PSNR 增益，而视图数量超过 20 后收益递减。
泛化能力：在 1 k 个未见身份的保留集上，模型实现了与每个主体单独优化方法相当的质量，验证了学习到的潜在空间能够捕获广泛的人类头部形状分布。

实际意义

快速化身管线 – 工作室可以仅凭几张相机拍摄的照片即时生成高保真 3‑D 头部资产，省去昂贵的手动重拓扑或针对每个主体的优化循环。
实时动画 – 由于输出是一个高斯云，可在现代 GPU 上以 >30 fps 渲染，开发者可以使用实时面部捕捉（例如 blendshape 系数）驱动化身，用于游戏或虚拟会议。
可扩展的数据采集 – 高斯点数量与图像分辨率解耦，这意味着现有的多相机装置可以升级为更高分辨率的传感器，而无需重新设计模型。
潜在空间编辑 – 紧凑的潜在向量支持下游任务，如身份插值、风格迁移或条件生成（例如 “创建具有特定发型的头部”），只需使用简单的 MLP 或扩散模型。

限制与未来工作

模板依赖 – UV‑参数化方法假设中性头部模板；极端发型或与模板偏差较大的配饰可能表现不足。
表情建模 – 虽然 blendshapes 可以驱动高斯云动画，系统尚未学习完全解耦的表情潜在空间，限制了细腻的面部动态。
硬件占用 – 在 >10 k 受试者上进行训练仍需多 GPU 集群；推理轻量，但解码器的全连接层在极高分辨率的高斯云情况下会占用大量内存。
未来方向 – 作者建议将框架扩展到全身重建，结合神经纹理场以捕获更丰富的材质，并探索自监督扩展至数十亿受试者。

作者

Evangelos Ntavelis
Sean Wu
Mohamad Shahbazi
Fabio Maninchedda
Dmitry Kostiaev
Artem Sevastopolsky
Vittorio Megaro
Trevor Phillips
Alejandro Blumentals
Shridhar Ravikumar
Mehak Gupta
Reinhard Knothe
Jeronimo Bayer
Matthias Vestner
Simon Schaefer
Thomas Etterlin
Christian Zimmermann
Mathias Deschler
Peter Kaufmann
Stefan Brugger
Sebastian Martin
Brian Amberg
Tom Runia

论文信息

arXiv ID: 2605.04035v1
分类: cs.CV, cs.LG
发表时间: 2026年5月5日
PDF: 下载 PDF

[Paper] 大规模高质量 3D 高斯头部重建来自多视角捕获

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Flow-OPD：用于 Flow Matching 模型的 On-Policy 蒸馏

[Paper] SCOPE：结构化分解与条件技能编排用于复杂图像生成

[Paper] BAMI：免训练偏差缓解在 GUI Grounding 中