[Paper] LayerGS：通过2D Gaussian Splatting对分层3D人类化身进行分解与修补

发布: 1个月前 (2026年1月9日 GMT+8 23:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.05853v1

概览

一个名为 LayerGS 的新框架可以让你仅凭一段人物视频，就生成一个可完全动画化的、多层的 3D 虚拟形象——将身体与每件服装分离。该系统通过使用 2‑D 高斯斑点（Gaussian splats）来表示每一层，并利用扩散模型对隐藏部位进行“绘制”，从而生成在新姿态和视角下仍保持一致的逼真渲染，为真实感的虚拟试穿和沉浸式头像创建打开了大门。

关键贡献

逐层高斯点绘: 将身体和每件服装编码为独立的二维高斯集合，保留细致几何结构，同时保持渲染快速且内存高效。
基于扩散的修补: 利用预训练的二维扩散模型（通过 Score‑Distillation Sampling）填补在输入视频中从未出现的被遮挡服装区域。
三阶段训练流水线:
1. 粗略的标准服装重建（单层）。
2. 联合多层优化，细化身体和外层细节。
3. 使用扩散驱动的修补进行最终微调。
最先进的结果: 在 4D‑Dress 和 Thuman2.0 基准上，无论是视觉质量还是定量分解指标，都优于之前的单层和多层方法。
开源发布: 完整代码和预训练模型已公开，可促进快速采用和进一步研究。

方法论

Data Capture: 对一个人在任意姿势下的短视频进行处理，以提取多视角图像和一个粗略的规范姿态。
Gaussian Splatting per Layer:
- 每一层（身体、衬衫、裤子等）被建模为一组放置在三维空间中的 2‑D Gaussian 基元。
- Gaussian 渲染开销轻量——仅是斑点 blobs 的加权求和——但在密集采样时能够捕捉高频表面细节。
Stage‑1: Coarse Single‑Layer Reconstruction
- 一个基础的 Gaussian‑splatting 流程构建出粗糙的 “canonical garment” 网格，为最外层服装提供初始几何形状。
Stage‑2: Multi‑Layer Joint Optimization
- 身体层和外部服装层同时进行优化。
- 可微渲染器反向传播光度损失（颜色、轮廓），同时强制层间一致性（例如，无相互穿透）。
Stage‑3: Diffusion‑Driven Inpainting
- 使用预训练的 2‑D diffusion 模型填补隐藏的服装区域（例如，从未看到的衬衫背面）。
- Score‑Distillation Sampling (SDS) 将扩散模型视为损失函数，推动 Gaussian 参数向扩散模型认为合理的纹理靠拢。
Animation & Re‑posing: 规范层通过标准骨骼蒙皮管线进行绑定，使得化身能够任意摆姿，同时保持学习到的层分离。

结果与发现

视觉保真度： 渲染的头像显示出清晰的边缘、逼真的织物阴影以及准确的层间遮挡，即使在极端视角下也能保持。
量化提升： 在 4D‑Dress 数据集上，LayerGS 将 PSNR 提高约 1.2 dB，并将 LPIPS 降低约 15 %，相较于之前最佳的多层方法。
鲁棒遮挡处理： 扩散‑修补步骤成功重建了未捕获的服装部分，用户研究验证参与者无法可靠地区分某区域是实际捕获还是合成的。
实时渲染： 由于 Gaussian splat 表示，现代 GPU 上可实现交互帧率（>30 fps），使该方法在实时应用中具有实用性。

实际意义

虚拟试穿 & 电子商务: 品牌可以生成客户身体的可重复使用的3‑D模型，并叠加任意数量的服装层，实现逼真的合身预览，无需完整的全身扫描。
游戏 & 元宇宙头像: 开发者可以通过短视频创建高质量、可动画的头像，降低资产制作的成本和时间，同时保持随时更换服装的灵活性。
AR/VR 内容创作: 轻量级的高斯表示非常适合移动设备和头显 GPU，支持在设备上进行头像渲染，提供沉浸式体验。
数字孪生 & 仿真: 对身体和服装的精准分离，使得在静态身体网格上进行基于物理的仿真（例如布料垂坠）成为可能，而无需重新训练整个模型。

限制与未来工作

对扩散模型质量的依赖： 修补质量受预训练扩散模型的训练数据限制；奇特的面料或图案可能渲染不准确。
单人捕获： 当前流水线假设每段视频只有一个主体；扩展到多人场景需要额外的分割处理。
高斯密度的刚性： 虽然高效，但与基于网格的表示相比，高斯在极细节（例如蕾丝）上可能表现不佳。
未来方向： 作者建议集成可学习的服装物理层，探索多人分解，并在特定服装数据集上微调扩散模型，以提升纹理真实感。

作者

Yinghan Xu
John Dingliana

论文信息

arXiv ID: 2601.05853v1
分类: cs.CV, cs.AI, cs.GR
出版日期: 2026年1月9日
PDF: 下载 PDF

[Paper] LayerGS：通过2D Gaussian Splatting对分层3D人类化身进行分解与修补

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

[Paper] 基于深度学习的胰腺肿瘤分割模型在公开内镜超声数据集上的表现

[Paper] RoboVIP：多视角视频生成与 Visual Identity Prompting 增强机器人操作

[Paper] 学习潜在动作世界模型在真实环境中

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

[Paper] 基于深度学习的胰腺肿瘤分割模型在公开内镜超声数据集上的表现

[Paper] RoboVIP：多视角视频生成与 Visual Identity Prompting 增强机器人操作

[Paper] 学习潜在动作世界模型 在真实环境中

[Paper] 学习潜在动作世界模型在真实环境中