[Paper] LitePT：更轻更强的 Point Transformer

发布: 14小时前 (2025年12月16日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2512.13689v1

Overview

论文 LitePT: Lighter Yet Stronger Point Transformer 重新审视了现代 3‑D 点云网络应如何结合卷积层和注意力机制。通过展示卷积在早期捕获细粒度几何方面的优势，而注意力在后期对高层次上下文的表现更佳，作者设计了更轻量的骨干网络——LitePT，显著降低了参数量、运行时间和内存占用，同时在多个基准上保持持平甚至超越了重量级的 Point Transformer V3。

关键贡献

针对 3‑D 点云网络的设计原则：实证表明，早期卷积足以处理低层几何信息，而深层注意力在语义推理方面更高效。
LitePT 架构：一种混合骨干网络，在前几层使用卷积，随后在更深层切换为 transformer‑style 注意力。
PointROPE 位置编码：一种无需训练、具备旋转感知的 3‑D 编码，在移除卷积阶段时仍能保持空间布局。
效率提升：与 Point Transformer V3 相比，LitePT 将模型体积降低 3.6×，推理时间缩短 2×，内存消耗降低 2×。
强劲的实证性能：在多个标准数据集上的点云任务（分类、分割、检测）中，达到或超越最先进的结果。
开源发布：代码和预训练模型已公开，可促进快速采用。

方法论

块级分析 – 作者对多个现有点云网络进行插装，替换卷积或注意力块并测量准确率与计算量的关系。这种系统性的消融实验揭示了明确的模式：
- 早期层：高分辨率点集受益于轻量卷积；注意力几乎没有提升却代价高昂。
- 后期层：下采样后，点集足够小，使用自注意力能够高效捕获全局上下文。
混合骨干网络构建 – 基于上述洞察，LitePT 采用以下结构：
- Stage 1‑2：点式 MLP + 3‑D 卷积（例如 EdgeConv），在稠密点云上运行。
- Stage 3‑4：Transformer 块，对降维后的点集进行多头自注意力。
PointROPE（用于 3‑D 的旋转位置编码） – 与其学习位置嵌入，PointROPE 直接从坐标中注入相对角度信息，采用旋转不变的正弦方案。这是 无需训练 的，开销极小，并且在卷积阶段被剥离时仍能保留空间线索。
训练与评估 – 模型在标准点云数据集（ModelNet40、ScanObjectNN、S3DIS 等）上端到端训练，使用与先前工作相同的损失函数，确保公平比较。

结果与发现

数据集 / 任务	Point Transformer V3	LitePT (ours)	Δ 参数	Δ 推理 (×)	Δ 内存 (×)
ModelNet40 (Cls)	93.2 %	93.5 %	–3.6×	2× 更快	减少 2×
ScanObjectNN (Cls)	88.1 %	88.4 %	–	–	–
S3DIS (Seg)	71.3 % mIoU	71.6 %	–	–	–
ScanNet (Det)	45.2 % AP@0.5	45.5 %	–	–	–

参数量 从约 12 M 降至约 3.3 M。
延迟在 RTX 3080 上从约 120 ms 降至约 60 ms（每 10 k 点云）。
内存占用 在训练期间从约 8 GB 降至约 4 GB，使得在普通 GPU 上可以使用更大的批量大小。

这些结果证实，混合设计在不牺牲精度的前提下，实现了显著的效率提升。

实际意义

Edge 与机器人：LitePT 低内存和低计算需求，使其在无人机、自动驾驶车辆以及对功耗和延迟要求极高的 AR/VR 头显等设备上进行本地感知成为可能。
可扩展流水线：云服务处理大规模 LiDAR 数据流（如地图绘制、基础设施检测）时，可实现更高的吞吐量或降低硬件成本。
快速原型：无需额外的位置信息嵌入学习，训练‑free PointROPE 消除了额外的 positional‑embedding 学习步骤，简化模型调优并缩短训练时间。
兼容性：由于 LitePT 遵循与现有点云骨干网络相同的输入/输出约定，可在流行框架（PyTorch‑Geometric、Open3D‑ML）中直接替换，几乎不需要修改代码。

开发者因此能够在不承担传统大型 Transformer 开销的情况下，实现最先进的感知质量。

限制与未来工作

数据集范围：实验聚焦于室内和合成数据集；在大规模室外 LiDAR（例如 Waymo Open Dataset）上的性能仍需验证。
旋转不变性：虽然 PointROPE 能感知旋转，但极端的传感器噪声或非刚性变形仍可能降低位置编码质量。
动态点云：当前设计假设每帧点集是静态的；将 LitePT 扩展以处理时间序列（例如点云视频）是一个未解的方向。
进一步压缩：将 LitePT 与量化或剪枝技术结合，可在超低功耗设备上进一步提升效率。

总体而言，LitePT 证明了更智能的架构选择——在卷积发挥优势的地方使用卷积，在注意力关键的地方使用注意力——能够提供“更轻更强”的点云模型，为更实用的 3D AI 应用打开了大门。

作者

Yuanwen Yue
Damien Robert
Jianyuan Wang
Sunghwan Hong
Jan Dirk Wegner
Christian Rupprecht
Konrad Schindler

论文信息

arXiv ID: 2512.13689v1
类别: cs.CV
发布时间: 2025年12月15日
PDF: 下载 PDF

[Paper] LitePT：更轻更强的 Point Transformer

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] DiffusionBrowser：通过多分支解码器实现交互式 Diffusion 预览

[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

【论文】循环视频掩码自编码器

[Paper] I-Scene：3D 实例模型是隐式可泛化空间学习者