[Paper] ImprovedGS+: 高性能 C++/CUDA 重新实现策略用于 3D Gaussian Splatting

发布: (2026年3月10日 GMT+8 01:38)
6 分钟阅读
原文: arXiv

Source: arXiv - 2603.08661v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 ImprovedGS+,这是对流行的 3D Gaussian Splatting(3DGS)管线进行从头开始的 C++/CUDA 重实现。通过将繁重的计算从 Python 移至原生 GPU 内核,作者显著缩短了训练时间并降低了内存消耗,同时仍然提供顶级的视觉质量——使得近实时的 3D 场景重建成为开发者的现实目标。

关键贡献

  • Native C++/CUDA Engine: 将整个 ImprovedGS 工作流重写为 LichtFeld‑Studio 框架内部的低层内核,消除昂贵的 Python‑GPU 交接。
  • Long‑Axis‑Split (LAS) Kernel: 一种自定义 CUDA 例程,将 Gaussian splats 按其最长轴进行划分,降低线程分歧和同步开销。
  • Laplacian‑Based Importance + NMS: 基于拉普拉斯的边缘感知重要性加权并结合非极大值抑制,以在高频区域集中计算。
  • Adaptive Exponential Scale Scheduler: 在训练过程中动态调整 Gaussian 尺度,提高收敛速度和最终保真度。
  • Pareto‑Optimal Performance: 在 Mip‑NeRF360 基准上展示了新的前沿——训练更快 使用更少的 Gaussian 即可获得更高的 PSNR。

方法论

  1. 框架迁移 – 原始的 ImprovedGS 管道(Python + PyTorch)已移植到 LichtFeld‑Studio C++ 核心。所有数据结构(高斯参数、特征张量等)现在直接驻留在 GPU 内存中。
  2. 内核设计
    • LAS:对每个高斯,内核计算其主轴,将 splat 分割为两个沿最长维度对齐的子 splat,并并行处理。这降低了 warp 空闲时间。
    • Importance & NMS:拉普拉斯滤波器提取每个像素的边缘强度;快速的 NMS 过程仅保留最强响应,引导优化器在最关键的地方分配高斯。
  3. 训练循环 – 主机与设备的同步点被合并为每次迭代的单一屏障。优化器现在直接在设备上更新位置、协方差和颜色,削减了“Python‑GPU 往返”的延迟。
  4. 尺度调度器 – 使用指数衰减调度,但根据损失平台期检测进行自适应重置,使模型能够在低细节区域快速缩小高斯,同时在需要的地方保留细节。

结果与发现

变体训练时间(分钟)高斯数PSNR (dB)相较基线的Δ
ImprovedGS+ (1M‑budget)≈ 73 (‑26.8 %)≈ 1.33 M (‑13.3 %)30.2比 MCMC 更快、更轻量
ImprovedGS+ (full)1122.1 M31.5 (+1.28 dB)参数减少 38.4 %,质量高于 ADC
  • 速度:相较于 Python 基线,C++/CUDA 堆栈每次训练可节省约 17 分钟。
  • 质量:即使使用更少的高斯,1M‑budget 版本也能匹配或超越最先进方法的视觉保真度。
  • 可扩展性:自适应调度器在扩展到数百万高斯时仍能保持适度的内存占用,确保更大场景的交互性。

实际意义

  • 更快的原型制作 – 开发者可以在不到两小时的时间内迭代场景捕获和重建流水线,这为 AR/VR 内容流水线带来巨大的生产力提升。
  • 边缘设备可行性 – 参数负载的降低意味着 3DGS 现在可以在高端移动 GPU 或内存受限的嵌入式平台上运行,为设备端扫描应用打开了大门。
  • 集成就绪 – 由于实现位于 LichtFeld‑Studio 中,现有工具(例如实时视图合成、混合现实编辑器)可以以最小的 API 更改接入 ImprovedGS+。
  • 成本节约 – 更短的训练时间直接转化为云 GPU 费用的降低,适用于渲染大型数据集的工作室(例如数字孪生、游戏资产生成)。

限制与未来工作

  • 硬件特定性 – 当前内核针对 NVIDIA CUDA 进行调优;移植到 AMD 或 Apple Silicon 将需要单独重写或依赖 SYCL/Metal。
  • 数据集范围 – 实验聚焦于 Mip‑NeRF360;对户外 LiDAR 扫描或高度动态场景的更广泛验证仍在待完成。
  • 可用性层 – 虽然核心引擎速度快,但用于数据预处理和后处理的 Python 级工具仍落后于底层的速度提升。
  • 未来方向 – 作者建议探索混合精度内核、LAS 切分因子的自动调优,以及集成学习得到的重要性图,以在不牺牲细节的前提下进一步降低高斯数量。

作者

  • Jordi Muñoz Vicente

论文信息

  • arXiv ID: 2603.08661v1
  • 类别: cs.CV
  • 发表时间: March 9, 2026
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……