[Paper] LitePT:更轻更强的 Point Transformer

发布: (2025年12月16日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.13689v1

Overview

论文 LitePT: Lighter Yet Stronger Point Transformer 重新审视了现代 3‑D 点云网络应如何结合卷积层和注意力机制。通过展示卷积在早期捕获细粒度几何方面的优势,而注意力在后期对高层次上下文的表现更佳,作者设计了更轻量的骨干网络——LitePT,显著降低了参数量、运行时间和内存占用,同时在多个基准上保持持平甚至超越了重量级的 Point Transformer V3。

关键贡献

  • 针对 3‑D 点云网络的设计原则:实证表明,早期卷积足以处理低层几何信息,而深层注意力在语义推理方面更高效。
  • LitePT 架构:一种混合骨干网络,在前几层使用卷积,随后在更深层切换为 transformer‑style 注意力。
  • PointROPE 位置编码:一种无需训练、具备旋转感知的 3‑D 编码,在移除卷积阶段时仍能保持空间布局。
  • 效率提升:与 Point Transformer V3 相比,LitePT 将模型体积降低 3.6×,推理时间缩短 ,内存消耗降低
  • 强劲的实证性能:在多个标准数据集上的点云任务(分类、分割、检测)中,达到或超越最先进的结果。
  • 开源发布:代码和预训练模型已公开,可促进快速采用。

方法论

  1. 块级分析 – 作者对多个现有点云网络进行插装,替换卷积或注意力块并测量准确率与计算量的关系。这种系统性的消融实验揭示了明确的模式:

    • 早期层:高分辨率点集受益于轻量卷积;注意力几乎没有提升却代价高昂。
    • 后期层:下采样后,点集足够小,使用自注意力能够高效捕获全局上下文。
  2. 混合骨干网络构建 – 基于上述洞察,LitePT 采用以下结构:

    • Stage 1‑2:点式 MLP + 3‑D 卷积(例如 EdgeConv),在稠密点云上运行。
    • Stage 3‑4:Transformer 块,对降维后的点集进行多头自注意力。
  3. PointROPE(用于 3‑D 的旋转位置编码) – 与其学习位置嵌入,PointROPE 直接从坐标中注入相对角度信息,采用旋转不变的正弦方案。这是 无需训练 的,开销极小,并且在卷积阶段被剥离时仍能保留空间线索。

  4. 训练与评估 – 模型在标准点云数据集(ModelNet40、ScanObjectNN、S3DIS 等)上端到端训练,使用与先前工作相同的损失函数,确保公平比较。

结果与发现

数据集 / 任务Point Transformer V3LitePT (ours)Δ 参数Δ 推理 (×)Δ 内存 (×)
ModelNet40 (Cls)93.2 %93.5 %–3.6×2× 更快减少 2×
ScanObjectNN (Cls)88.1 %88.4 %
S3DIS (Seg)71.3 % mIoU71.6 %
ScanNet (Det)45.2 % AP@0.545.5 %
  • 参数量 从约 12 M 降至约 3.3 M。
  • 延迟 在 RTX 3080 上从约 120 ms 降至约 60 ms(每 10 k 点云)。
  • 内存占用 在训练期间从约 8 GB 降至约 4 GB,使得在普通 GPU 上可以使用更大的批量大小。

这些结果证实,混合设计在不牺牲精度的前提下,实现了显著的效率提升。

实际意义

  • Edge 与机器人:LitePT 低内存和低计算需求,使其在无人机、自动驾驶车辆以及对功耗和延迟要求极高的 AR/VR 头显等设备上进行本地感知成为可能。
  • 可扩展流水线:云服务处理大规模 LiDAR 数据流(如地图绘制、基础设施检测)时,可实现更高的吞吐量或降低硬件成本。
  • 快速原型:无需额外的位置信息嵌入学习,训练‑free PointROPE 消除了额外的 positional‑embedding 学习步骤,简化模型调优并缩短训练时间。
  • 兼容性:由于 LitePT 遵循与现有点云骨干网络相同的输入/输出约定,可在流行框架(PyTorch‑Geometric、Open3D‑ML)中直接替换,几乎不需要修改代码。

开发者因此能够在不承担传统大型 Transformer 开销的情况下,实现最先进的感知质量。

限制与未来工作

  • 数据集范围:实验聚焦于室内和合成数据集;在大规模室外 LiDAR(例如 Waymo Open Dataset)上的性能仍需验证。
  • 旋转不变性:虽然 PointROPE 能感知旋转,但极端的传感器噪声或非刚性变形仍可能降低位置编码质量。
  • 动态点云:当前设计假设每帧点集是静态的;将 LitePT 扩展以处理时间序列(例如点云视频)是一个未解的方向。
  • 进一步压缩:将 LitePT 与量化或剪枝技术结合,可在超低功耗设备上进一步提升效率。

总体而言,LitePT 证明了更智能的架构选择——在卷积发挥优势的地方使用卷积,在注意力关键的地方使用注意力——能够提供“更轻更强”的点云模型,为更实用的 3D AI 应用打开了大门。

作者

  • Yuanwen Yue
  • Damien Robert
  • Jianyuan Wang
  • Sunghwan Hong
  • Jan Dirk Wegner
  • Christian Rupprecht
  • Konrad Schindler

论文信息

  • arXiv ID: 2512.13689v1
  • 类别: cs.CV
  • 发布时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】循环视频掩码自编码器

我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……