[Paper] 大规模高质量 3D 高斯头部重建来自多视角捕获
发布: (2026年5月6日 GMT+8 01:55)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.04035v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
Overview
HeadsUp 引入了一种前馈管线,能够将数千张高分辨率多摄像头图像转换为由 Gaussian splats 表示的详细 3‑D 头部模型。通过为每个主体学习紧凑的潜在代码,系统可以在一次前向传递中重建新头部——无需针对每个主体进行优化——从而使其在大规模生产管线(如头像创建、虚拟制作或 AR/VR 体验)中具有实用性。
关键贡献
- 可扩展的编码器‑解码器架构,将任意数量的输入视图压缩为固定大小的潜在向量。
- 基于 UV 参数化的 3‑D 高斯表示,锚定在中性头部模板上,使高斯数量与图像分辨率或视图数量解耦。
- 在前所未有的数据集上进行训练,包含超过 10 k 名受试者(约是之前多视角头部语料库的 10 倍),展示了对未见身份的强大泛化能力。
- 最先进的重建质量,无需任何测试时优化,超越现有的神经渲染和基于网格的方法。
- 展示了下游实用性: (1) 潜在空间插值用于生成新颖的 3‑D 身份,(2) 使用表情混合形状驱动重建的头部,实现实时动画。
方法论
- Data Ingestion – 多摄像头装置从多个角度捕获数十张高分辨率的RGB图像,记录受试者头部。
- Encoder – 轻量级CNN对每个视角独立处理,提取每视角特征。这些特征通过池化(例如最大池化或注意力)合并为单个 latent vector,概括受试者的几何形状和外观。
- Decoder – 将潜在向量输入全连接解码器,预测一组密集的3‑D高斯分布参数,这些高斯分布放置在UV映射的中性头部模板上。每个高斯存储位置、协方差(形状)、颜色和不透明度。
- Rendering – 推理阶段,使用 splatting(类似流行的 “3‑D Gaussian Splatting” 技术)对高斯云进行光栅化,生成逼真的新视角图像。
- Training Objective – 结合多视角光度损失、感知损失以及对高斯大小/重叠的正则化,确保模型的保真度和稳定性。
由于 UV 布局将每个高斯固定在模板的特定位置,Gaussian 的数量保持不变,无论使用多少输入图像,这使得模型能够摄取极高分辨率的数据而不会导致内存爆炸。
结果与发现
- 定量:HeadsUp 将 LPIPS(Learned Perceptual Image Patch Similarity)降低约 15 %,并使 PSNR 提升约 2 dB,相较于此前最佳的多视角头部重建基线。
- 定性:重建的头部能够保留细微的发丝、皮肤纹理以及精确的耳朵几何形状,即使在测试时仅提供 8–12 张视图。
- 可扩展性:通过改变训练主体数量、输入视图数量和解码器容量的实验显示出可预测的权衡:潜在维度加倍可带来约 0.5 dB 的 PSNR 增益,而视图数量超过 20 后收益递减。
- 泛化能力:在 1 k 个未见身份的保留集上,模型实现了与每个主体单独优化方法相当的质量,验证了学习到的潜在空间能够捕获广泛的人类头部形状分布。
实际意义
- 快速化身管线 – 工作室可以仅凭几张相机拍摄的照片即时生成高保真 3‑D 头部资产,省去昂贵的手动重拓扑或针对每个主体的优化循环。
- 实时动画 – 由于输出是一个高斯云,可在现代 GPU 上以 >30 fps 渲染,开发者可以使用实时面部捕捉(例如 blendshape 系数)驱动化身,用于游戏或虚拟会议。
- 可扩展的数据采集 – 高斯点数量与图像分辨率解耦,这意味着现有的多相机装置可以升级为更高分辨率的传感器,而无需重新设计模型。
- 潜在空间编辑 – 紧凑的潜在向量支持下游任务,如身份插值、风格迁移或条件生成(例如 “创建具有特定发型的头部”),只需使用简单的 MLP 或扩散模型。
限制与未来工作
- 模板依赖 – UV‑参数化方法假设中性头部模板;极端发型或与模板偏差较大的配饰可能表现不足。
- 表情建模 – 虽然 blendshapes 可以驱动高斯云动画,系统尚未学习完全解耦的表情潜在空间,限制了细腻的面部动态。
- 硬件占用 – 在 >10 k 受试者上进行训练仍需多 GPU 集群;推理轻量,但解码器的全连接层在极高分辨率的高斯云情况下会占用大量内存。
- 未来方向 – 作者建议将框架扩展到全身重建,结合神经纹理场以捕获更丰富的材质,并探索自监督扩展至数十亿受试者。
作者
- Evangelos Ntavelis
- Sean Wu
- Mohamad Shahbazi
- Fabio Maninchedda
- Dmitry Kostiaev
- Artem Sevastopolsky
- Vittorio Megaro
- Trevor Phillips
- Alejandro Blumentals
- Shridhar Ravikumar
- Mehak Gupta
- Reinhard Knothe
- Jeronimo Bayer
- Matthias Vestner
- Simon Schaefer
- Thomas Etterlin
- Christian Zimmermann
- Mathias Deschler
- Peter Kaufmann
- Stefan Brugger
- Sebastian Martin
- Brian Amberg
- Tom Runia
论文信息
- arXiv ID: 2605.04035v1
- 分类: cs.CV, cs.LG
- 发表时间: 2026年5月5日
- PDF: 下载 PDF