[Paper] LitePT:更轻更强的 Point Transformer
Source: arXiv - 2512.13689v1
Overview
论文 LitePT: Lighter Yet Stronger Point Transformer 重新审视了现代 3‑D 点云网络应如何结合卷积层和注意力机制。通过展示卷积在早期捕获细粒度几何方面的优势,而注意力在后期对高层次上下文的表现更佳,作者设计了更轻量的骨干网络——LitePT,显著降低了参数量、运行时间和内存占用,同时在多个基准上保持持平甚至超越了重量级的 Point Transformer V3。
关键贡献
- 针对 3‑D 点云网络的设计原则:实证表明,早期卷积足以处理低层几何信息,而深层注意力在语义推理方面更高效。
- LitePT 架构:一种混合骨干网络,在前几层使用卷积,随后在更深层切换为 transformer‑style 注意力。
- PointROPE 位置编码:一种无需训练、具备旋转感知的 3‑D 编码,在移除卷积阶段时仍能保持空间布局。
- 效率提升:与 Point Transformer V3 相比,LitePT 将模型体积降低 3.6×,推理时间缩短 2×,内存消耗降低 2×。
- 强劲的实证性能:在多个标准数据集上的点云任务(分类、分割、检测)中,达到或超越最先进的结果。
- 开源发布:代码和预训练模型已公开,可促进快速采用。
方法论
-
块级分析 – 作者对多个现有点云网络进行插装,替换卷积或注意力块并测量准确率与计算量的关系。这种系统性的消融实验揭示了明确的模式:
- 早期层:高分辨率点集受益于轻量卷积;注意力几乎没有提升却代价高昂。
- 后期层:下采样后,点集足够小,使用自注意力能够高效捕获全局上下文。
-
混合骨干网络构建 – 基于上述洞察,LitePT 采用以下结构:
- Stage 1‑2:点式 MLP + 3‑D 卷积(例如 EdgeConv),在稠密点云上运行。
- Stage 3‑4:Transformer 块,对降维后的点集进行多头自注意力。
-
PointROPE(用于 3‑D 的旋转位置编码) – 与其学习位置嵌入,PointROPE 直接从坐标中注入相对角度信息,采用旋转不变的正弦方案。这是 无需训练 的,开销极小,并且在卷积阶段被剥离时仍能保留空间线索。
-
训练与评估 – 模型在标准点云数据集(ModelNet40、ScanObjectNN、S3DIS 等)上端到端训练,使用与先前工作相同的损失函数,确保公平比较。
结果与发现
| 数据集 / 任务 | Point Transformer V3 | LitePT (ours) | Δ 参数 | Δ 推理 (×) | Δ 内存 (×) |
|---|---|---|---|---|---|
| ModelNet40 (Cls) | 93.2 % | 93.5 % | –3.6× | 2× 更快 | 减少 2× |
| ScanObjectNN (Cls) | 88.1 % | 88.4 % | – | – | – |
| S3DIS (Seg) | 71.3 % mIoU | 71.6 % | – | – | – |
| ScanNet (Det) | 45.2 % AP@0.5 | 45.5 % | – | – | – |
- 参数量 从约 12 M 降至约 3.3 M。
- 延迟 在 RTX 3080 上从约 120 ms 降至约 60 ms(每 10 k 点云)。
- 内存占用 在训练期间从约 8 GB 降至约 4 GB,使得在普通 GPU 上可以使用更大的批量大小。
这些结果证实,混合设计在不牺牲精度的前提下,实现了显著的效率提升。
实际意义
- Edge 与机器人:LitePT 低内存和低计算需求,使其在无人机、自动驾驶车辆以及对功耗和延迟要求极高的 AR/VR 头显等设备上进行本地感知成为可能。
- 可扩展流水线:云服务处理大规模 LiDAR 数据流(如地图绘制、基础设施检测)时,可实现更高的吞吐量或降低硬件成本。
- 快速原型:无需额外的位置信息嵌入学习,训练‑free PointROPE 消除了额外的 positional‑embedding 学习步骤,简化模型调优并缩短训练时间。
- 兼容性:由于 LitePT 遵循与现有点云骨干网络相同的输入/输出约定,可在流行框架(PyTorch‑Geometric、Open3D‑ML)中直接替换,几乎不需要修改代码。
开发者因此能够在不承担传统大型 Transformer 开销的情况下,实现最先进的感知质量。
限制与未来工作
- 数据集范围:实验聚焦于室内和合成数据集;在大规模室外 LiDAR(例如 Waymo Open Dataset)上的性能仍需验证。
- 旋转不变性:虽然 PointROPE 能感知旋转,但极端的传感器噪声或非刚性变形仍可能降低位置编码质量。
- 动态点云:当前设计假设每帧点集是静态的;将 LitePT 扩展以处理时间序列(例如点云视频)是一个未解的方向。
- 进一步压缩:将 LitePT 与量化或剪枝技术结合,可在超低功耗设备上进一步提升效率。
总体而言,LitePT 证明了更智能的架构选择——在卷积发挥优势的地方使用卷积,在注意力关键的地方使用注意力——能够提供“更轻更强”的点云模型,为更实用的 3D AI 应用打开了大门。
作者
- Yuanwen Yue
- Damien Robert
- Jianyuan Wang
- Sunghwan Hong
- Jan Dirk Wegner
- Christian Rupprecht
- Konrad Schindler
论文信息
- arXiv ID: 2512.13689v1
- 类别: cs.CV
- 发布时间: 2025年12月15日
- PDF: 下载 PDF