[Paper] Splatent:用于新视角合成的扩散潜变量点绘
发布: (2025年12月11日 GMT+8 02:57)
7 min read
原文: arXiv
Source: arXiv - 2512.09923v1
概览
本文提出 Splatent,一种基于扩散的后处理流水线,用于在潜在空间中对预训练 VAE 的 3D 高斯投影(3DGS)输出进行锐化。通过将细节恢复步骤从 3D 移回原始的 2D 图像视角,作者在不牺牲潜在空间辐射场的速度和可扩展性的前提下,实现了更好的纹理保真度。
关键贡献
- 基于 3DGS 的潜在空间扩散:一种新颖框架,将 VAE 潜在场视为扩散模型的画布,在保持潜在辐射场紧凑性的同时加入高频细节。
- 用于 2D 细节恢复的多视角注意力:该方法不在 3D 中重建缺失纹理,而是使用注意力聚合所有输入视角的信息,然后将恢复的细节注入潜在场。
- 在标准基准上实现最先进的结果:Splatent 在 PSNR、SSIM 和 LPIPS 上超越了之前的 VAE‑潜在辐射场方法,成为稀疏视角新视图合成的最新最佳水平。
- 即插即用的兼容性:该方法可以附加到现有的前馈 3DGS 流水线(如 Instant‑NGP、Gaussian‑Splatting),并以极少的额外计算持续提升视觉质量。
- 保持预训练 VAE 的质量:无需对 VAE 进行微调,避免了多视角一致性与重建保真度之间的典型权衡。
方法论
- 潜在空间中的基础 3DGS – 预训练 VAE 将输入图像编码为低维潜在网格。对该网格进行 3D 高斯投影,得到可快速从任意视点渲染的粗糙辐射场。
- 扩散增强模块 – 条件扩散模型接受渲染的粗糙视图(仍在潜在空间中)以及一组相邻的源视图作为条件。
- 多视角注意力 – 条件使用 Transformer 风格的注意力块,使扩散模型能够查询所有可用视角的纹理线索,有效“借用”在 VAE 压缩过程中丢失的高频信息。
- 潜在更新与重新渲染 – 扩散步骤预测一个残差潜在图,将其加到原始潜在场上。更新后的潜在场再次进行投影,生成高细节的新视图。
- 训练 – 扩散模型在由现有多视角数据集生成的(粗糙潜在渲染,真实潜在)合成对上进行训练。VAE 在整个过程中保持冻结。
该流水线可视化为:输入图像 → VAE 编码器 → 潜在 3DGS → 粗糙渲染 → 扩散 + 注意力 → 精细潜在 → 3DGS 渲染。
结果与发现
| 数据集 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| NeRF‑Synthetic (8 视角) | 31.2 | 0.94 | 0.07 |
| Tanks & Temples (稀疏) | 28.5 | 0.91 | 0.09 |
| ScanNet (4 视角) | 29.8 | 0.92 | 0.08 |
- 纹理保真度:视觉对比显示出清晰的边缘和恢复的细微图案(如织物纹理、砖块砂浆),这些在基线潜在‑3DGS 中会被模糊。
- 速度:扩散步骤在 RTX 4090 上每视图仅增加约 0.2 秒,仍远快于全分辨率 NeRF 训练(数小时)。
- 对稀疏性的鲁棒性:即使只有 3 张输入视图,Splatent 也能恢复其他潜在场方法完全遗漏的细节。
总体而言,Splatent 相比最强的先前潜在辐射方法实现了 约 1.5 dB 的 PSNR 提升,且保持相同的内存占用。
实际意义
- AR/VR 资产的快速原型:开发者可以仅用少量照片生成高质量 3D 资产,无需等待数天的 NeRF 训练。
- 与现有流水线的集成:由于扩散模块是即插即用的后处理器,使用 Gaussian‑Splatting 进行实时渲染的工作室只需一次额外推理即可提升纹理质量。
- 边缘设备可行性:潜在表示保持紧凑,支持移动端或嵌入式 AR 头显上的本地推理;如有需要,扩散步骤可离线到服务器。
- 提升下游任务:更好的纹理重建有利于光照真实感重渲、纹理感知的碰撞检测以及为计算机视觉模型进行数据增强。
局限性与未来工作
- 对视角覆盖的依赖:虽然 Splatent 能处理极度稀疏的输入,但极端视角缺口(例如从未看到的物体背面)仍会导致幻觉,这是扩散模型的已知风险。
- 扩散的计算开销:虽然影响不大,但额外的扩散过程在实时流媒体场景中可能成为瓶颈;未来工作可探索轻量化扩散或蒸馏技术。
- 固定的 VAE 潜在维度:该方法假设已有预训练 VAE;联合优化 VAE 与扩散模型有望进一步提升质量。
- 对非真实感领域的泛化:当前训练数据主要是室内/室外摄影;将其扩展到医学成像或科学可视化仍是未解之题。
作者
- Or Hirschorn
- Omer Sela
- Inbar Huberman‑Spiegelglas
- Netalee Efrat
- Eli Alshan
- Ianir Ideses
- Frederic Devernay
- Yochai Zvik
- Lior Fritz
论文信息
- arXiv ID: 2512.09923v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 10 日
- PDF: Download PDF