[Paper] 加速旋转不变卷积用于 UAV 图像分割

发布: (2025年12月10日 GMT+8 02:30)
5 min read
原文: arXiv

Source: arXiv - 2512.08888v1

Overview

本文提出了一种针对 GPU 优化的 旋转不变卷积 层,在保持与现有最佳方法相当的精度的同时,大幅加速 UAV(无人机)图像分割。通过去除耗时的 “im2col” 数据降维步骤并在旋转滤波器副本之间共享计算,作者实现了最高 45 % 的训练加速显著的能耗降低,使得具备旋转感知的深度网络在实时航空视觉流水线中变得实用。

Key Contributions

  • 新型卷积核,能够原生处理多种方向,而无需将滤波器库展开为多个独立的权重矩阵。
  • 消除 im2col 步骤,降低内存流量,避免冗余的矩阵乘法工作。
  • 推广到任意(非对称)旋转角度,实现细粒度的方向处理。
  • GPU 级实现,在多种输入尺寸下的训练速度比 cuDNN 快 20‑55 %,能耗降低 15‑45 %。
  • 与 U‑Net 集成,在 UAV 数据集上相较于标准的、无旋转感知的基线提升 最高 6 % 的分割精度

Methodology

  1. 旋转滤波器共享 – 与其为每个方向存储单独的滤波器,算法仅保存一个基准滤波器,并在运行时使用轻量级索引映射方案生成旋转版本。由于许多像素访问在不同方向之间是共享的,方法能够复用相同的内存读取。
  2. 无矩阵乘法卷积 – 传统的 GPU 卷积首先将输入(im2col)重塑为大矩阵,然后调用 GEMM 例程。作者跳过此步骤,直接通过自定义 CUDA 核心流式传输输入,在一次遍历中计算所有方向的点积。
  3. 任意角度支持 – 对于不符合滤波器对称性的角度(例如 13°、27°),卷积核使用预计算的旋转表对滤波器权重进行插值,保持相同的低开销数据流。
  4. 基准测试套件 – 作者在合成和真实 UAV 数据集上进行评估,比较对象包括 cuDNN、群等变卷积网络以及其他旋转不变基线。

Results & Findings

SettingSpeedup vs. cuDNNEnergy ReductionSegmentation mIoU (U‑Net)
8 orientations, 256×256 input+45 %‑41 %+4 % over baseline
8 orientations, 1024×1024 input+32 %‑23 %+6 % over baseline
Arbitrary angles (13°, 27°, …)+20‑55 %+15‑45 %Comparable to state‑of‑the‑art equivariant nets

该方法在不同分辨率下均实现了 一致的速度和功耗提升,同时 保持(或略微提升)分割质量

Practical Implications

  • 实时 UAV 分析 – 更快、更低功耗的卷积使得板载处理成为可能,可用于作物监测、基础设施检查或搜救等任务,尤其在无人机计算资源和电池容量受限的场景下。
  • 边缘部署 – 降低的内存带宽需求使该层对边缘 GPU(Jetson、Coral)乃至 FPGA 加速器都具吸引力。
  • 简化模型设计 – 开发者只需将标准 Conv2D 层替换为本文提出的层,即可加入旋转不变性,无需重新设计整个网络或膨胀参数量。
  • 节能训练 – 处理大规模航空图像数据集的云端训练作业可降低最高 45 % 的电力消耗,从而降低云计算费用。

Limitations & Future Work

  • 当前实现面向 NVIDIA CUDA GPU;移植到其他后端(AMD、Intel 或移动 GPU)需要额外的工程工作。
  • 虽然支持任意角度,但在非常细的角度步长下 插值精度 可能下降,可能影响需要亚度精度的任务。
  • 作者聚焦于 U‑Net 风格的编码‑解码分割;将该方法扩展到检测或实例分割流水线仍是未解之题。
  • 未来研究可探索 旋转集合的联合学习(即学习哪些方向最重要)以及 硬件层面的协同设计,进一步压缩内存流量。

Authors

  • Manduhu Manduhu
  • Alexander Dow
  • Gerard Dooly
  • James Riordan

Paper Information

  • arXiv ID: 2512.08888v1
  • Categories: cs.CV, cs.RO
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »