[Paper] 对遥感数据集标签噪声识别的以数据为中心方法的评估
Source: arXiv - 2603.16835v1
(请提供需要翻译的正文内容,我将为您翻译成简体中文。)
概述
本文研究了三种 data‑centric label‑noise detection methods 在遥感图像数据集上的效果。通过在不同强度(10‑70 %)下有意破坏真实标签(ground‑truth labels),作者展示了这些技术既能 识别噪声标注(spot noisy annotations),又能 提升下游模型性能(boost downstream model performance),为处理不完美的卫星或航空影像数据的开发者提供了实用的路线图。
关键贡献
- 系统性基准测试:在两个广泛使用的遥感数据集上,对三种标签噪声识别算法进行系统性基准评估。
- 全面的噪声注入研究:覆盖对称噪声、非对称噪声以及类依赖噪声类型,并在广泛的腐蚀水平范围内进行实验。
- 定量分析:分析每种方法在隔离噪声样本方面的效果,以及这种过滤如何转化为更高的分类准确率。
- 指南:根据噪声特性和项目目标,提供选择最合适方法的指导原则。
- 研究空白识别:指出在将以数据为中心的噪声处理方法适配到遥感影像独特挑战(如高类内变异性、多光谱数据)时的研究空白。
方法论
-
Datasets & Baselines – 作者使用两个基准遥感数据集(例如,土地覆盖场景分类集和航空目标检测集)。标准卷积神经网络(CNN)作为基线分类器。
-
Synthetic Label Noise – 他们使用三种噪声模型对真实标签进行污染:
- Symmetric:任意标签以相等概率翻转为其他标签。
- Asymmetric:翻转遵循预定义的混淆矩阵(例如,“森林” ↔ “草原”)。
- Class‑dependent:某些类别更容易出错。
噪声水平从 10 % 变化至 70 %。
-
Data‑Centric Methods Evaluated –
- Loss‑Based Filtering(例如 small‑loss trick):假设干净样本的训练损失更低。
- Agreement‑Based Ensemble:训练多个模型并标记共识度低的样本。
- Feature‑Space Outlier Detection:提取深层特征并使用聚类/异常评分来发现标记错误的样本。
-
Evaluation Pipeline – 对于每种噪声设置,方法首先 identify a subset of suspected noisy labels。这些样本要么被移除,要么被重新标记,随后重新训练分类器。性能通过以下指标衡量:
- Noise‑identification accuracy(被标记样本的精确率/召回率)。
- Task accuracy(整体分类的 IoU 或 F1 分数)。
结果与发现
- 噪声识别 – 三种方法均优于随机猜测,但各自优势不同:
- Loss‑Based Filtering 在低至中等对称噪声(≤30 %)下表现出色。
- Agreement‑Based Ensemble 对非对称和类别相关噪声最为稳健,即使在 50 % 损坏时仍保持 >70 % 的精度。
- Feature‑Space Outlier Detection 在数据具有强视觉可分离性(例如,明显的光谱特征)时表现突出。
- 对模型性能的影响 – 移除识别出的噪声样本后,分类准确率相比在受污染数据集上训练提升 5‑12 %(绝对值),在更高噪声水平(≥50 %)时提升幅度最大。
- 权衡 – 过于激进的过滤可能会丢弃过多干净样本,在噪声较低时略微降低性能;因此需要校准阈值。
- 最佳实践建议 – 对于大多数遥感流水线,采用 混合方法(结合 loss‑based 与 agreement‑based 信号)可在各种噪声类型下提供最一致的改进。
实际意义
- 数据清洗流水线 – 开发者可以将这些轻量级检测模块集成到现有的训练循环中,自动修剪或标记可疑的标注,以便在模型部署前进行处理。
- 成本节约 – 通过定位噪声标签,团队可以将人工标注工作集中在少量问题样本上,从而降低昂贵的重新标注工作。
- 稳健的模型部署 – 在实际的遥感应用中(例如灾害制图、农业监测),即使面对噪声的众包或遗留标签,仍能保持高准确率,这意味着更可靠的决策支持工具。
- 工具兼容性 – 所评估的方法依赖于标准深度学习库(PyTorch/TensorFlow),仅需要模型的损失值、预测或特征嵌入——无需专用硬件或外部数据集。
限制与未来工作
- 仅合成噪声 – 本研究使用人工注入的标签错误;真实世界的噪声模式(例如系统性标注偏差)可能表现不同。
- 可扩展性 – 基于集成的一致性方法会随着模型数量线性增加训练时间,这在非常大的卫星数据集上可能难以接受。
- 多模态数据 – 实验聚焦于 RGB 或多光谱影像;扩展到 SAR、LiDAR 或融合模态仍是未解的挑战。
- 自适应阈值 – 未来研究应探索基于观察到的噪声水平自行调节过滤强度的自调机制,可能通过元学习实现。
底线: 本工作表明 以数据为中心的标签噪声检测并非仅是学术好奇心——它是提升遥感 AI 系统可靠性的实用杠杆,且提供的指南为开发者在生产流水线中集成这些技术提供了明确的起点。
作者
- Felix Kröber
- Genc Hoxha
- Ribana Roscher
论文信息
- arXiv ID: 2603.16835v1
- 分类: cs.CV
- 出版日期: 2026年3月17日
- PDF: 下载 PDF