[Paper] SortWaste: 산업 폐기물 분류에서 객체 감지를 위한 고밀도 주석 데이터셋

발행: (2026년 1월 6일 오전 02:34 GMT+9)
6 min read
원문: arXiv

Source: arXiv - 2601.02299v1

개요

이 논문은 SortWaste를 소개한다. 이는 물류 회수 시설(MRF) 내부에서 촬영된 실제 폐기물 이미지의 대규모, 밀집 주석 데이터셋이다. 데이터셋을 ClutterScore라는 새로운 “hardness” 메트릭과 결합함으로써, 저자들은 현재 객체 탐지 모델들이 산업 분류 라인에서 흔히 나타나는 혼란스러운 시각적 조건에 어떻게 어려움을 겪는지를 밝힌다—이 통찰은 차세대 AI‑driven 재활용 솔루션을 이끌 수 있다.

주요 기여

  • SortWaste 데이터셋: ≈ 30 k 고해상도 이미지와 400 k 이상의 바운딩‑박스 주석을 포함하며, 플라스틱, 금속, 종이 등 13개의 일반 폐기물 카테고리를 다룸.
  • ClutterScore 메트릭: 객체 수, 클래스‑엔트로피, 크기‑엔트로피, 공간 겹침을 활용해 장면 난이도를 정량화하고, 혼잡 수준별 모델 성능을 체계적으로 분석할 수 있게 함.
  • 포괄적인 벤치마크: 최신 검출기(Faster RCNN, YOLOv8, DETR 등)를 전체 데이터셋 및 “플라스틱‑전용” 서브셋에서 평가하고, mAP, 재현율, ClutterScore‑조건별 결과를 보고함.
  • 오픈‑소스 공개: 데이터셋, 주석 도구, 평가 스크립트를 허용적인 라이선스로 공개하여 재현성 및 커뮤니티 기여를 장려함.

방법론

  1. 데이터 수집 – 운영 중인 MRF 내부 컨베이어 벨트에 카메라를 설치하여 현실적인 조명과 움직임 흐림 하에서 혼합 폐기물의 연속 스트림을 촬영했습니다.
  2. 주석 파이프라인 – 교육받은 주석자들이 맞춤형 라벨링 UI를 사용해 정확한 경계 상자를 그리며 미리 정의된 재질 클래스 중 하나를 할당했습니다. 겹침 처리를 강제하여 밀집된 커버리지를 확보했습니다.
  3. ClutterScore 설계 – 이미지당 네 가지 프록시를 계산합니다:
    • 객체 수 (객체가 많을수록 점수 상승)
    • 클래스 엔트로피 (다양한 재질 혼합)
    • 크기 엔트로피 (객체 규모의 넓은 범위)
    • 공간 겹침 (가림 정도)
      이들은 정규화된 뒤 합산되어 0(매우 깨끗)에서 1(극도로 복잡) 사이의 단일 스칼라 값을 생성합니다.
  4. 모델 학습 및 평가 – 각 탐지기에 표준 학습 레시피(COCO‑style augmentation, AdamW optimizer)를 적용했습니다. 성능은 평균 평균 정밀도(mean Average Precision, mAP)로 측정했으며, ClutterScore 구간(낮음, 중간, 높음)별로 계층화하여 평가했습니다.

Results & Findings

DetectorOverall mAP (all classes)Plastic‑only mAPmAP (high ClutterScore)
Faster RCNN (ResNet‑50)48.2 %59.7 %31.4 %
YOLOv8 (large)51.5 %62.3 %34.0 %
DETR (ResNet‑101)45.9 %57.1 %28.7 %
  • Performance drops sharply as clutter rises: the best‑performing model loses ~30 pp of mAP between low‑ and high‑clutter scenes.
  • Plastic detection is easier than the full‑multiclass task, likely because plastics dominate the visual texture and have fewer intra‑class variations.
  • Error analysis shows most failures stem from heavy occlusion and small objects (< 30 px), confirming the relevance of the ClutterScore components.

Practical Implications

  • Robotics & automation: Companies building robotic arms for sorting can use SortWaste to pre‑train perception modules that are already exposed to realistic occlusions and size variations, reducing the “simulation‑to‑real” gap.
  • Edge deployment: The benchmark highlights which architectures retain acceptable accuracy under high clutter while staying within typical edge‑device constraints (e.g., YOLOv8‑large on NVIDIA Jetson).
  • Process optimization: Facility managers can compute ClutterScore on live camera feeds to trigger adaptive sorting strategies—e.g., slowing the belt or invoking a secondary inspection station when the score exceeds a threshold.
  • Regulatory compliance & reporting: Accurate material classification supports automated reporting for waste‑diversion targets, helping firms meet ESG (Environmental, Social, Governance) mandates.

제한 사항 및 향후 연구

  • Geographic bias – 모든 이미지가 포르투갈의 단일 MRF에서 수집되었습니다; 다른 지역에서는 폐기물 구성이 다를 수 있습니다(예: 유리 함량이 더 높음).
  • Static camera viewpoint – 데이터셋은 다각도 또는 3‑D 센싱(깊이, LiDAR)을 포함하지 않으며, 이는 가림 현상 처리에 도움이 될 수 있습니다.
  • Class granularity – 일부 카테고리(예: “플라스틱”)는 범위가 넓으며, PET와 HDPE와 같은 세부 하위 클래스가 구분되지 않아 재활용 관련 의사결정이 제한됩니다.
  • Future directions 저자들이 제시한 내용으로는 데이터셋을 여러 시설로 확장하고, 깊이 센서를 통합하며, 객체 간 상호작용을 명시적으로 모델링하여 혼잡으로 인한 오류를 완화하는 트랜스포머 기반 탐지기를 탐구하는 것이 포함됩니다.

저자

  • Sara Inácio
  • Hugo Proença
  • João C. Neves

논문 정보

  • arXiv ID: 2601.02299v1
  • 카테고리: cs.CV
  • 발행일: 2026년 1월 5일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »