[Paper] 标签高效的学校检测（基于航空影像）通过弱监督预训练与微调

发布: 5天前 (2026年5月6日 GMT+8 00:51)

6 分钟阅读

原文: arXiv

Source: arXiv - 2605.03968v1

概述

在高分辨率航空影像中检测学校是非政府组织、政府部门和电信运营商进行基础设施规划、资源分配或向服务不足地区提供互联网连接的关键步骤。本文提出了一种 弱监督、标签高效的流水线，只需少量人工标注的图像，即可训练出准确的学校检测器，利用稀疏位置点和语义分割自动生成的标签。

数据来源
- 稀疏位置点（例如已知学校的 GPS 坐标），从公共登记处或众包地图获取。
- 高分辨率航空影像，覆盖相同的地理区域。
自动标签生成
- 在影像上运行 语义分割网络（在通用建筑轮廓上训练）。
- 将稀疏点叠加到分割图上；相交的类建筑区域被提取为 学校掩码。
- 将每个掩码转换为紧凑的 边界框，作为目标检测的伪标签。
两阶段训练
- 阶段 1 – 弱监督预训练：在大量自动标记的框上训练标准目标检测器（如 Faster RCNN、YOLOv8）。模型学习通用的“学校‑like”视觉表征。
- 阶段 2 – 微调：使用 少量人工验证 的数据集（≈ 50 张图像）对检测器进行细化，纠正阶段 1 引入的噪声并提升定位精度。
评估
- 在保留的高质量标注测试集上使用标准目标检测指标（AP@0.5、AP@0.75）。
- 进行消融实验比较：(a) 使用相同 50 张图像的全监督训练，(b) 仅阶段 1，和 (c) 完整的两阶段流水线。

Quality of auto‑labels depends on the segmentation model; 在建筑风格非典型或植被茂密的地区，掩模可能噪声较大，限制了 Stage 1 学习。
The approach assumes accurate GPS points; 系统性的定位误差可能传播到错误标记的框中。
Experiments were limited to a few geographic regions; 需要更广泛的跨洲验证以确认对多样成像条件的鲁棒性。
Future directions include: (a) incorporating multimodal data (e.g., SAR, multispectral) to improve mask generation, (b) exploring self‑training or contrastive learning to further reduce reliance on any manual labels, and (c) building an active‑learning loop where the model requests the most informative manual annotations.