[Paper] ImprovedGS+: 高性能 C++/CUDA 重新实现策略用于 3D Gaussian Splatting

发布: 14小时前 (2026年3月10日 GMT+8 01:38)

6 分钟阅读

原文: arXiv

Source: arXiv - 2603.08661v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 ImprovedGS+，这是对流行的 3D Gaussian Splatting（3DGS）管线进行从头开始的 C++/CUDA 重实现。通过将繁重的计算从 Python 移至原生 GPU 内核，作者显著缩短了训练时间并降低了内存消耗，同时仍然提供顶级的视觉质量——使得近实时的 3D 场景重建成为开发者的现实目标。

关键贡献

Native C++/CUDA Engine: 将整个 ImprovedGS 工作流重写为 LichtFeld‑Studio 框架内部的低层内核，消除昂贵的 Python‑GPU 交接。
Long‑Axis‑Split (LAS) Kernel: 一种自定义 CUDA 例程，将 Gaussian splats 按其最长轴进行划分，降低线程分歧和同步开销。
Laplacian‑Based Importance + NMS: 基于拉普拉斯的边缘感知重要性加权并结合非极大值抑制，以在高频区域集中计算。
Adaptive Exponential Scale Scheduler: 在训练过程中动态调整 Gaussian 尺度，提高收敛速度和最终保真度。
Pareto‑Optimal Performance: 在 Mip‑NeRF360 基准上展示了新的前沿——训练更快且使用更少的 Gaussian 即可获得更高的 PSNR。

方法论

框架迁移 – 原始的 ImprovedGS 管道（Python + PyTorch）已移植到 LichtFeld‑Studio C++ 核心。所有数据结构（高斯参数、特征张量等）现在直接驻留在 GPU 内存中。
内核设计 –
- LAS：对每个高斯，内核计算其主轴，将 splat 分割为两个沿最长维度对齐的子 splat，并并行处理。这降低了 warp 空闲时间。
- Importance & NMS：拉普拉斯滤波器提取每个像素的边缘强度；快速的 NMS 过程仅保留最强响应，引导优化器在最关键的地方分配高斯。
训练循环 – 主机与设备的同步点被合并为每次迭代的单一屏障。优化器现在直接在设备上更新位置、协方差和颜色，削减了“Python‑GPU 往返”的延迟。
尺度调度器 – 使用指数衰减调度，但根据损失平台期检测进行自适应重置，使模型能够在低细节区域快速缩小高斯，同时在需要的地方保留细节。

结果与发现

变体	训练时间（分钟）	高斯数	PSNR (dB)	相较基线的Δ
ImprovedGS+ (1M‑budget)	≈ 73 (‑26.8 %)	≈ 1.33 M (‑13.3 %)	30.2	比 MCMC 更快、更轻量
ImprovedGS+ (full)	112	2.1 M	31.5 (+1.28 dB)	参数减少 38.4 %，质量高于 ADC

速度：相较于 Python 基线，C++/CUDA 堆栈每次训练可节省约 17 分钟。
质量：即使使用更少的高斯，1M‑budget 版本也能匹配或超越最先进方法的视觉保真度。
可扩展性：自适应调度器在扩展到数百万高斯时仍能保持适度的内存占用，确保更大场景的交互性。

实际意义

更快的原型制作 – 开发者可以在不到两小时的时间内迭代场景捕获和重建流水线，这为 AR/VR 内容流水线带来巨大的生产力提升。
边缘设备可行性 – 参数负载的降低意味着 3DGS 现在可以在高端移动 GPU 或内存受限的嵌入式平台上运行，为设备端扫描应用打开了大门。
集成就绪 – 由于实现位于 LichtFeld‑Studio 中，现有工具（例如实时视图合成、混合现实编辑器）可以以最小的 API 更改接入 ImprovedGS+。
成本节约 – 更短的训练时间直接转化为云 GPU 费用的降低，适用于渲染大型数据集的工作室（例如数字孪生、游戏资产生成）。

限制与未来工作

硬件特定性 – 当前内核针对 NVIDIA CUDA 进行调优；移植到 AMD 或 Apple Silicon 将需要单独重写或依赖 SYCL/Metal。
数据集范围 – 实验聚焦于 Mip‑NeRF360；对户外 LiDAR 扫描或高度动态场景的更广泛验证仍在待完成。
可用性层 – 虽然核心引擎速度快，但用于数据预处理和后处理的 Python 级工具仍落后于底层的速度提升。
未来方向 – 作者建议探索混合精度内核、LAS 切分因子的自动调优，以及集成学习得到的重要性图，以在不牺牲细节的前提下进一步降低高斯数量。

作者

Jordi Muñoz Vicente

论文信息

arXiv ID: 2603.08661v1
类别: cs.CV
发表时间: March 9, 2026
PDF: 下载 PDF

[Paper] ImprovedGS+: 高性能 C++/CUDA 重新实现策略用于 3D Gaussian Splatting

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 尺度空间扩散

[Paper] 一起交谈：从音频合成同位3D对话

[Paper] UNBOX：使用自然语言揭示黑箱视觉模型

[Paper] StreamReady：学习在长流视频中该回答什么以及何时回答