[论文] EGGS：可交换的 2D/3D Gaussian Splatting 用于几何‑外观平衡的新视角合成

发布: 2个月前 (2025年12月3日 GMT+8 01:01)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.02932v1

概述

本文介绍了 EGGS（Exchangeable Gaussian Splatting），一种新颖的混合渲染管线，将 2‑D 与 3‑D 高斯 splatting 融合，以在生成新视角图像时同时实现高保真纹理和精确几何。通过让系统在运行时在 2‑D 与 3‑D 高斯之间切换，EGGS 克服了以往实时 NVS 方案中视觉细节与多视角一致性之间的经典权衡。

关键贡献

混合表示：将 2‑D 与 3‑D 高斯相结合的混合表示，在单一场景模型中实现。
混合高斯光栅化：统一的基于 CUDA 的渲染器，可在一次渲染中光栅化 2‑D 与 3‑D splat。
自适应类型交换：一种学习驱动的机制，在训练和推理期间动态决定将 splat 视为 2‑D（纹理聚焦）还是 3‑D（几何聚焦）。
频率解耦优化：将低频（形状）和高频（外观）损失分离，使每种高斯类型在其擅长的方面专精。
实时性能：作者报告的训练时间可与纯 3‑DGS 相媲美，推理速度适用于交互式 AR/VR 应用。

方法论

场景初始化 – 管线从一组多视角图像开始，构建初始的高斯原语云，每个原语包含位置、协方差、颜色以及“类型标记”（2‑D 或 3‑D）。
混合光栅化器 – 自定义 CUDA 核心将每个高斯投影到图像平面。2‑D 高斯直接在屏幕空间光栅化（类似精灵），而 3‑D 高斯先经相机姿态变换再进行 splat。光栅化器使用可微分的合成步骤混合贡献，实现基于梯度的学习。
自适应类型交换 – 在每次优化迭代中，网络为每个高斯评估类型置信度分数。如果 splat 的几何误差（相对于深度线索）较高，则提升为 3‑D；若纹理误差（高频颜色损失）占主导，则降为 2‑D。此交换完全可微，并在 GPU 上完成。
频率解耦损失 – 损失函数被拆分为：
- 低频损失（例如深度一致性、平滑性），主要更新 3‑D 高斯。
- 高频损失（例如感知颜色损失、边缘锐度），主要驱动 2‑D 高斯。
  通过解耦，每种高斯类型可以专注于自身优势，而不被相反的梯度拉扯。
训练与推理 – 整个管线在单个 GPU 上端到端运行。对典型室内场景（约 10 万个高斯）训练收敛约 30 分钟，渲染 1080p 帧约 15 毫秒，满足实时阈值。

结果与发现

指标	EGGS	3‑DGS	2‑DGS	NeRF‑based baseline
PSNR（新视角）	31.8 dB	30.2 dB	28.9 dB	30.5 dB
SSIM	0.94	0.91	0.88	0.92
几何误差（RMSE）	0.018 m	0.032 m	0.021 m	0.025 m
渲染时间（1080p）	15 ms	12 ms	18 ms	120 ms
训练时间（每场景）	28 min	30 min	22 min	4 h

视觉质量：EGGS 保留细腻纹理（例如织物图案），同时消除纯 3‑DGS 常见的重影伪影。
几何保真度：混合模型降低深度漂移，产生更清晰的细结构边缘，并在多视角间实现更好对齐。
效率：尽管类型交换增加了复杂度，CUDA 光栅化器仍使运行时与现有最快的 splatting 方法持平。

实际意义

AR/VR 内容管线：开发者现在可以仅用少量捕获图像生成高质量、低延迟的场景表示，减少手工 3‑D 建模。
机器人与自动驾驶：准确的几何对防撞至关重要；EGGS 能实时提供密集、视图一致的深度图，对 SLAM 前端有用。
游戏引擎与实时图形：混合 splatting 方法可作为 Unity 或 Unreal 的插件集成，提供快速的“照片级真实代理”，用于背景环境而无需繁重的多边形网格。
边缘部署：由于该方法在单 GPU 上运行且避免了大型 MLP（如 NeRF），非常适合现代移动 GPU 或嵌入式 NVIDIA Jetson 设备。

局限性与未来工作

对大规模户外场景的可扩展性：当前实现将高斯数量上限约为 20 万；处理城市规模环境需要层次化或流式策略。
动态内容：EGGS 假设场景静止；将类型交换机制扩展到处理运动物体或光照变化仍是未解挑战。
内存占用：相较于纯 3‑DGS，存储 2‑D 与 3‑D 属性会使每个高斯的内存翻倍，这在低显存设备上可能成为瓶颈。
作者提出的未来方向包括：自适应剪枝冗余高斯、与学习光照模型的集成，以及探索多模态输入（如 LiDAR + RGB）。

作者

Yancheng Zhang
Guangyu Sun
Chen Chen

论文信息

arXiv ID: 2512.02932v1
Categories: cs.CV, cs.AI
发布日期： 2025 年 12 月 2 日
PDF: [

[论文] EGGS：可交换的 2D/3D Gaussian Splatting 用于几何‑外观平衡的新视角合成

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响