[Paper] 标签高效的学校检测(基于航空影像)通过弱监督预训练与微调

发布: (2026年5月6日 GMT+8 00:51)
6 分钟阅读
原文: arXiv

Source: arXiv - 2605.03968v1

概述

在高分辨率航空影像中检测学校是非政府组织、政府部门和电信运营商进行基础设施规划、资源分配或向服务不足地区提供互联网连接的关键步骤。本文提出了一种 弱监督、标签高效的流水线,只需少量人工标注的图像,即可训练出准确的学校检测器,利用稀疏位置点和语义分割自动生成的标签。

关键贡献

  • 两阶段训练框架:首先在自动生成的边界框上进行预训练,然后在极少量的干净数据集(少至 50 张图像)上微调。
  • 自动标注流水线,将稀疏的 GPS 点转换为分割掩码,再转换为对象级别的边界框,无需人工绘制。
  • 在低数据量场景下展示出强大的检测性能,在手工标签稀缺时超越全监督基线。
  • 开源发布模型、代码以及自动标注的数据集,以加速研究和实际部署。

方法论

  1. 数据来源

    • 稀疏位置点(例如已知学校的 GPS 坐标),从公共登记处或众包地图获取。
    • 高分辨率航空影像,覆盖相同的地理区域。
  2. 自动标签生成

    • 在影像上运行 语义分割网络(在通用建筑轮廓上训练)。
    • 将稀疏点叠加到分割图上;相交的类建筑区域被提取为 学校掩码
    • 将每个掩码转换为紧凑的 边界框,作为目标检测的伪标签。
  3. 两阶段训练

    • 阶段 1 – 弱监督预训练:在大量自动标记的框上训练标准目标检测器(如 Faster RCNN、YOLOv8)。模型学习通用的“学校‑like”视觉表征。
    • 阶段 2 – 微调:使用 少量人工验证 的数据集(≈ 50 张图像)对检测器进行细化,纠正阶段 1 引入的噪声并提升定位精度。
  4. 评估

    • 在保留的高质量标注测试集上使用标准目标检测指标(AP@0.5、AP@0.75)。
    • 进行消融实验比较:(a) 使用相同 50 张图像的全监督训练,(b) 仅阶段 1,和 (c) 完整的两阶段流水线。

结果与发现

Training RegimeAP@0.5AP@0.75
完全监督(50 张手动标注图像)0.420.21
仅 Stage 1(自动标签)0.480.24
两阶段(自动标签 + 50 张手动标注)0.660.38
  • 两阶段方法在使用相同数量的干净标注的情况下,显著优于纯监督学习。
  • 在约 50 张手动标注图像后,性能趋于平台;增加更多手动数据的收益递减,验证了该方法的标签效率。
  • 视觉检查表明,即使自动标签中包含噪声,检测器仍能在不同场景(城市街区、农村聚落、不同屋顶材料)中可靠地找到学校。

实际意义

  • 可扩展的NGO和政府制图:组织可以仅凭几十个已验证的地点启动学校检测模型,然后使用自动标注流水线在整个国家推广。
  • 针对连通性项目的快速评估:电信运营商可以快速估算学校数量和分布,以便优先部署宽带,减少昂贵的现场调查。
  • 成本降低:手动标注预算大幅缩减——以前需要数千小时标注的工作,现在只需几天专家验证即可完成。
  • 可扩展性:通过更换语义分割骨干网络,同一弱监督方案可以适用于其他基础设施类型(诊所、水箱、太阳能板)。

限制与未来工作

  • Quality of auto‑labels depends on the segmentation model; 在建筑风格非典型或植被茂密的地区,掩模可能噪声较大,限制了 Stage 1 学习。
  • The approach assumes accurate GPS points; 系统性的定位误差可能传播到错误标记的框中。
  • Experiments were limited to a few geographic regions; 需要更广泛的跨洲验证以确认对多样成像条件的鲁棒性。
  • Future directions include: (a) incorporating multimodal data (e.g., SAR, multispectral) to improve mask generation, (b) exploring self‑training or contrastive learning to further reduce reliance on any manual labels, and (c) building an active‑learning loop where the model requests the most informative manual annotations.

作者

  • Zakarya Elmimouni
  • Fares Fourati
  • Mohamed‑Slim Alouini

论文信息

  • arXiv ID: 2605.03968v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 出版日期: 2026年5月5日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »