[Paper] 可扩展的基于点的可微渲染用于大规模重建

发布: 1个月前 (2025年12月23日 GMT+8 11:17)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.20017v1

（请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。）

概述

本文介绍了 Gaian，一种新的分布式训练系统，使基于点的可微渲染（point‑based differentiable rendering，PBDR）在高分辨率、大规模 3D 重建中变得实用。通过公开细粒度的数据访问模式，Gaian 大幅减少 GPU 之间的通信并提升训练吞吐量，使开发者能够在普通 GPU 集群上对大规模场景训练 PBDR 模型。

关键贡献

统一的 PBDR API – 一个灵活的接口，可在不重写代码库的情况下托管任何现有的基于点的可微渲染器。
数据局部感知运行时 – 自动分析读写模式，将相关的点云和纹理放置在一起，最小化跨节点流量。
通信削减技术 – 结合选择性点分片、惰性同步和压缩，将网络负载降低最高 91 %。
可扩展实现 – 在 4 种最先进的 PBDR 算法和 6 个数据集上验证，训练吞吐量提升 1.5×–3.7×，支持最多 128 GPUs。
开源参考 – 作者发布了 Gaian 的核心库和示例集成，降低了行业采用的门槛。

方法论

抽象层 – Gaian 定义了一组原始操作（例如点采样、属性聚合、梯度反向传播），这些操作直接映射到任何 PBDR 流水线的数学步骤。
静态访问剖析 – 在训练之前，Gaian 运行轻量级跟踪，以捕获每个 GPU 在前向‑后向传播过程中读取或写入的点和纹理块。
最优分片 – 利用剖析结果，Gaian 将点云划分为 局部性组，并分配给 GPU，使大多数访问保持在节点内部。
惰性与压缩同步 – 仅交换跨分片边界的点的增量，并在传输时进行量化/压缩。
动态再平衡 – 如果某个分片成为热点（例如由于视角相关采样），Gaian 可以迁移点以平衡负载，而无需停止训练。

所有这些都运行在标准深度学习框架（PyTorch/TF）之上，并利用 NCCL 进行底层 GPU 通信。

结果与发现

数据集 / 规模	GPU	通信压缩率	吞吐量提升 (相对于基线)
合成室内（2 M 点）	32	84 %	2.1×
户外城市街区（12 M 点）	64	91 %	3.7×
大规模校园（45 M 点）	128	78 %	1.5×

通信瓶颈已消除 – 大多数训练步骤现在受计算限制，而非网络限制。
内存占用保持不变 – Gaian 的分片不会复制点数据，使得更大的场景能够在相同硬件上运行。
算法无关的提升 – 四种集成的 PBDR 方法（例如 Neural Point Fields、Differentiable Point Splatting）均获得了类似的加速，验证了该方法的通用性。

实际影响

更快的原型循环 – 开发者可以在不等待单个 epoch 需要数小时完成的情况下，迭代新的 PBDR 思路。
成本效益的扩展 – 由于网络流量大幅降低，可在更少的节点或更廉价的云实例上实现相同的重建质量。
实时或近实时流水线 – 延迟降低后，Gaian 为 AR/VR、机器人映射和数字孪生更新等即时场景捕获打开了可能。
即插即用集成 – 现有代码库只需将渲染器的数据加载器替换为 Gaian API，即可采用 Gaian，同时保留大部分原始训练逻辑。

限制与未来工作

静态分析假设 – Gaian 的初始访问模式分析在高度动态的视图轨迹下可能变得次优；作者建议更频繁地重新分析。
硬件依赖 – 当前实现针对 NVIDIA GPU 和 NCCL 进行调优；若要扩展到 AMD 或仅 CPU 的集群，需要额外的工程工作。
对异构数据的支持有限 – 带有每点神经网络或复杂层次属性的点云尚未得到完全优化。
未来方向 包括在训练期间进行自适应分片、与新兴的基于网格的可微渲染器更紧密的集成，以及提供开源基准以供更广泛的社区验证。

作者

Hexu Zhao
Xiaoteng Liu
Xiwen Min
Jianhao Huang
Youming Deng
Yanfei Li
Ang Li
Jinyang Li
Aurojit Panda

论文信息

arXiv ID: 2512.20017v1
分类: cs.DC, cs.GR
出版日期: 2025年12月23日
PDF: 下载 PDF

[Paper] 可扩展的基于点的可微渲染用于大规模重建

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

[Paper] FUSCO：通过变换-通信融合实现高性能分布式数据洗牌

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] BLEST：极其高效的 BFS 使用 Tensor Cores