[Paper] SortWaste:工业废物分拣目标检测的密集标注数据集

发布: (2026年1月6日 GMT+8 01:34)
6 min read
原文: arXiv

Source: arXiv - 2601.02299v1

Overview

本文介绍了 SortWaste,一个大规模、密集标注的真实废弃物图像数据集,拍摄于 Material Recovery Facility (MRF) 内部。通过将该数据集与一种名为 ClutterScore 的新“硬度”度量相结合,作者揭示了当前目标检测模型在工业分拣线典型的混乱视觉环境中表现不佳——这一发现可能引导下一代 AI 驱动的回收解决方案。

关键贡献

  • SortWaste 数据集: ≈ 30 k 高分辨率图像,拥有超过 400 k 边界框标注,覆盖 13 类常见废弃物(塑料、金属、纸张等)。
  • ClutterScore 指标: 通过对象数量、类别熵、尺寸熵和空间重叠量化场景难度,能够系统地分析模型在不同杂乱程度下的性能。
  • 综合基准: 对多种最先进的检测器(Faster RCNN、YOLOv8、DETR 等)在完整数据集和“仅塑料”子集上进行评估,报告 mAP、召回率以及基于 ClutterScore 的条件结果。
  • 开源发布: 数据集、标注工具和评估脚本在宽松许可证下公开,鼓励可重复性研究和社区贡献。

方法论

  1. Data collection – 在运行中的 MRF(垃圾回收设施)内部的传送带上安装摄像头,捕获在真实光照和运动模糊下的混合废物连续流。

  2. Annotation pipeline – 受过训练的标注员使用自定义标注 UI 绘制紧密的边界框,并分配预定义的材料类别之一。强制处理重叠以确保密集覆盖。

  3. ClutterScore design – 对每幅图像计算四个代理指标:

    • Object count(对象数量,更多对象 → 更高分数)
    • Class entropy(类别熵,材料混合多样性)
    • Size entropy(尺寸熵,对象尺度范围广)
    • Spatial overlap(空间重叠,遮挡程度)
      这些指标被归一化后相加,得到一个介于 0(非常干净)到 1(极度杂乱)的单一标量。
  4. Model training & evaluation – 对每个检测器使用标准训练方案(COCO‑style 增强、AdamW 优化器)。通过平均精度均值(mAP)进行性能衡量,并按 ClutterScore 分箱(低、中、高)进行分层分析。

结果与发现

检测器Overall mAP (all classes)Plastic‑only mAPmAP (high ClutterScore)
Faster RCNN (ResNet‑50)48.2 %59.7 %31.4 %
YOLOv8 (large)51.5 %62.3 %34.0 %
DETR (ResNet‑101)45.9 %57.1 %28.7 %
  • 性能随杂乱度显著下降:最佳模型在低杂乱场景和高杂乱场景之间的 mAP 损失约 30 pp。
  • 塑料检测相对更容易,胜过完整的多类别任务,可能是因为塑料在视觉纹理上占主导且类内变化较少。
  • 错误分析表明,大多数失误来源于严重遮挡和小目标(< 30 px),这验证了 ClutterScore 各组成部分的相关性。

实际意义

  • 机器人与自动化: 构建用于分拣的机器人臂的公司可以使用 SortWaste 进行感知模块的预训练,这些模块已经接触到真实的遮挡和尺寸变化,从而缩小 “仿真到现实” 的差距。
  • 边缘部署: 该基准测试突出显示了哪些架构在高杂乱度下仍能保持可接受的准确率,同时符合典型边缘设备的约束(例如,NVIDIA Jetson 上的 YOLOv8‑large)。
  • 流程优化: 设施管理者可以在实时摄像头视频上计算 ClutterScore,以触发自适应分拣策略——例如,当分数超过阈值时减慢传送带速度或启用二次检查站。
  • 合规与报告: 精准的材料分类支持废弃物分流目标的自动化报告,帮助企业满足 ESG(环境、社会、治理)要求。

限制与未来工作

  • 地理偏差 – 所有图像均来自葡萄牙的单一 MRF;其他地区的废物组成可能不同(例如,玻璃含量更高)。
  • 静态摄像机视角 – 数据集未覆盖多角度或三维感知(深度、LiDAR),这些技术有助于处理遮挡问题。
  • 类别粒度 – 某些类别(例如 “塑料”)过于宽泛;未区分更细的子类(如 PET 与 HDPE),限制了针对回收的具体决策。
  • 未来方向 作者建议包括将数据集扩展至多个设施、集成深度传感器,并探索基于 Transformer 的检测器,显式建模物体间交互,以减轻因杂乱导致的错误。

作者

  • Sara Inácio
  • Hugo Proença
  • João C. Neves

论文信息

  • arXiv ID: 2601.02299v1
  • 类别: cs.CV
  • 出版时间: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »