[Paper] 加速旋转不变卷积用于 UAV 图像分割
发布: (2025年12月10日 GMT+8 02:30)
5 min read
原文: arXiv
Source: arXiv - 2512.08888v1
Overview
本文提出了一种针对 GPU 优化的 旋转不变卷积 层,在保持与现有最佳方法相当的精度的同时,大幅加速 UAV(无人机)图像分割。通过去除耗时的 “im2col” 数据降维步骤并在旋转滤波器副本之间共享计算,作者实现了最高 45 % 的训练加速 和 显著的能耗降低,使得具备旋转感知的深度网络在实时航空视觉流水线中变得实用。
Key Contributions
- 新型卷积核,能够原生处理多种方向,而无需将滤波器库展开为多个独立的权重矩阵。
- 消除 im2col 步骤,降低内存流量,避免冗余的矩阵乘法工作。
- 推广到任意(非对称)旋转角度,实现细粒度的方向处理。
- GPU 级实现,在多种输入尺寸下的训练速度比 cuDNN 快 20‑55 %,能耗降低 15‑45 %。
- 与 U‑Net 集成,在 UAV 数据集上相较于标准的、无旋转感知的基线提升 最高 6 % 的分割精度。
Methodology
- 旋转滤波器共享 – 与其为每个方向存储单独的滤波器,算法仅保存一个基准滤波器,并在运行时使用轻量级索引映射方案生成旋转版本。由于许多像素访问在不同方向之间是共享的,方法能够复用相同的内存读取。
- 无矩阵乘法卷积 – 传统的 GPU 卷积首先将输入(im2col)重塑为大矩阵,然后调用 GEMM 例程。作者跳过此步骤,直接通过自定义 CUDA 核心流式传输输入,在一次遍历中计算所有方向的点积。
- 任意角度支持 – 对于不符合滤波器对称性的角度(例如 13°、27°),卷积核使用预计算的旋转表对滤波器权重进行插值,保持相同的低开销数据流。
- 基准测试套件 – 作者在合成和真实 UAV 数据集上进行评估,比较对象包括 cuDNN、群等变卷积网络以及其他旋转不变基线。
Results & Findings
| Setting | Speedup vs. cuDNN | Energy Reduction | Segmentation mIoU (U‑Net) |
|---|---|---|---|
| 8 orientations, 256×256 input | +45 % | ‑41 % | +4 % over baseline |
| 8 orientations, 1024×1024 input | +32 % | ‑23 % | +6 % over baseline |
| Arbitrary angles (13°, 27°, …) | +20‑55 % | +15‑45 % | Comparable to state‑of‑the‑art equivariant nets |
该方法在不同分辨率下均实现了 一致的速度和功耗提升,同时 保持(或略微提升)分割质量。
Practical Implications
- 实时 UAV 分析 – 更快、更低功耗的卷积使得板载处理成为可能,可用于作物监测、基础设施检查或搜救等任务,尤其在无人机计算资源和电池容量受限的场景下。
- 边缘部署 – 降低的内存带宽需求使该层对边缘 GPU(Jetson、Coral)乃至 FPGA 加速器都具吸引力。
- 简化模型设计 – 开发者只需将标准 Conv2D 层替换为本文提出的层,即可加入旋转不变性,无需重新设计整个网络或膨胀参数量。
- 节能训练 – 处理大规模航空图像数据集的云端训练作业可降低最高 45 % 的电力消耗,从而降低云计算费用。
Limitations & Future Work
- 当前实现面向 NVIDIA CUDA GPU;移植到其他后端(AMD、Intel 或移动 GPU)需要额外的工程工作。
- 虽然支持任意角度,但在非常细的角度步长下 插值精度 可能下降,可能影响需要亚度精度的任务。
- 作者聚焦于 U‑Net 风格的编码‑解码分割;将该方法扩展到检测或实例分割流水线仍是未解之题。
- 未来研究可探索 旋转集合的联合学习(即学习哪些方向最重要)以及 硬件层面的协同设计,进一步压缩内存流量。
Authors
- Manduhu Manduhu
- Alexander Dow
- Gerard Dooly
- James Riordan
Paper Information
- arXiv ID: 2512.08888v1
- Categories: cs.CV, cs.RO
- Published: December 9, 2025
- PDF: Download PDF