[论文] EGGS:可交换的 2D/3D Gaussian Splatting 用于几何‑外观平衡的新视角合成
发布: (2025年12月3日 GMT+8 01:01)
6 min read
原文: arXiv
Source: arXiv - 2512.02932v1
概述
本文介绍了 EGGS(Exchangeable Gaussian Splatting),一种新颖的混合渲染管线,将 2‑D 与 3‑D 高斯 splatting 融合,以在生成新视角图像时同时实现高保真纹理 和 精确几何。通过让系统在运行时在 2‑D 与 3‑D 高斯之间切换,EGGS 克服了以往实时 NVS 方案中视觉细节与多视角一致性之间的经典权衡。
关键贡献
- 混合表示:将 2‑D 与 3‑D 高斯相结合的混合表示,在单一场景模型中实现。
- 混合高斯光栅化:统一的基于 CUDA 的渲染器,可在一次渲染中光栅化 2‑D 与 3‑D splat。
- 自适应类型交换:一种学习驱动的机制,在训练和推理期间动态决定将 splat 视为 2‑D(纹理聚焦)还是 3‑D(几何聚焦)。
- 频率解耦优化:将低频(形状)和高频(外观)损失分离,使每种高斯类型在其擅长的方面专精。
- 实时性能:作者报告的训练时间可与纯 3‑DGS 相媲美,推理速度适用于交互式 AR/VR 应用。
方法论
- 场景初始化 – 管线从一组多视角图像开始,构建初始的高斯原语云,每个原语包含位置、协方差、颜色以及“类型标记”(2‑D 或 3‑D)。
- 混合光栅化器 – 自定义 CUDA 核心将每个高斯投影到图像平面。2‑D 高斯直接在屏幕空间光栅化(类似精灵),而 3‑D 高斯先经相机姿态变换再进行 splat。光栅化器使用可微分的合成步骤混合贡献,实现基于梯度的学习。
- 自适应类型交换 – 在每次优化迭代中,网络为每个高斯评估类型置信度分数。如果 splat 的几何误差(相对于深度线索)较高,则提升为 3‑D;若纹理误差(高频颜色损失)占主导,则降为 2‑D。此交换完全可微,并在 GPU 上完成。
- 频率解耦损失 – 损失函数被拆分为:
- 低频损失(例如深度一致性、平滑性),主要更新 3‑D 高斯。
- 高频损失(例如感知颜色损失、边缘锐度),主要驱动 2‑D 高斯。
通过解耦,每种高斯类型可以专注于自身优势,而不被相反的梯度拉扯。
- 训练与推理 – 整个管线在单个 GPU 上端到端运行。对典型室内场景(约 10 万个高斯)训练收敛约 30 分钟,渲染 1080p 帧约 15 毫秒,满足实时阈值。
结果与发现
| 指标 | EGGS | 3‑DGS | 2‑DGS | NeRF‑based baseline |
|---|---|---|---|---|
| PSNR(新视角) | 31.8 dB | 30.2 dB | 28.9 dB | 30.5 dB |
| SSIM | 0.94 | 0.91 | 0.88 | 0.92 |
| 几何误差(RMSE) | 0.018 m | 0.032 m | 0.021 m | 0.025 m |
| 渲染时间(1080p) | 15 ms | 12 ms | 18 ms | 120 ms |
| 训练时间(每场景) | 28 min | 30 min | 22 min | 4 h |
- 视觉质量:EGGS 保留细腻纹理(例如织物图案),同时消除纯 3‑DGS 常见的重影伪影。
- 几何保真度:混合模型降低深度漂移,产生更清晰的细结构边缘,并在多视角间实现更好对齐。
- 效率:尽管类型交换增加了复杂度,CUDA 光栅化器仍使运行时与现有最快的 splatting 方法持平。
实际意义
- AR/VR 内容管线:开发者现在可以仅用少量捕获图像生成高质量、低延迟的场景表示,减少手工 3‑D 建模。
- 机器人与自动驾驶:准确的几何对防撞至关重要;EGGS 能实时提供密集、视图一致的深度图,对 SLAM 前端有用。
- 游戏引擎与实时图形:混合 splatting 方法可作为 Unity 或 Unreal 的插件集成,提供快速的“照片级真实代理”,用于背景环境而无需繁重的多边形网格。
- 边缘部署:由于该方法在单 GPU 上运行且避免了大型 MLP(如 NeRF),非常适合现代移动 GPU 或嵌入式 NVIDIA Jetson 设备。
局限性与未来工作
- 对大规模户外场景的可扩展性:当前实现将高斯数量上限约为 20 万;处理城市规模环境需要层次化或流式策略。
- 动态内容:EGGS 假设场景静止;将类型交换机制扩展到处理运动物体或光照变化仍是未解挑战。
- 内存占用:相较于纯 3‑DGS,存储 2‑D 与 3‑D 属性会使每个高斯的内存翻倍,这在低显存设备上可能成为瓶颈。
- 作者提出的未来方向包括:自适应剪枝冗余高斯、与学习光照模型的集成,以及探索多模态输入(如 LiDAR + RGB)。
作者
- Yancheng Zhang
- Guangyu Sun
- Chen Chen
论文信息
- arXiv ID: 2512.02932v1
- Categories: cs.CV, cs.AI
- 发布日期: 2025 年 12 月 2 日
- PDF: [