[Paper] 摄像头 RGB‑NIR 火灾检测

发布: (2025年12月30日 GMT+8 00:48)
5 min read
原文: arXiv

Source: arXiv - 2512.23594v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

概述

本文针对基于计算机视觉的火灾监测中一个长期存在的问题进行研究:使用 RGB‑NIR(近红外)摄像头在夜间可靠地检测火焰。通过增强稀缺的 NIR 数据、引入两阶段检测流水线,并提出一种基于补丁的 YOLO 变体,作者在提升检测精度至最佳已发表结果之上,同时减少了由强光人工灯光引起的误报。

关键贡献

  • 扩展的近红外数据集 – 精心策划并大量增强,以缓解公开可用的夜视火灾图像不足的问题。
  • 两阶段检测流水线 – 将快速的 YOLOv11 前端与轻量级 EfficientNetV2‑B0 分类器相结合,以过滤人工照明导致的误报。
  • Patched‑YOLO – 一种新颖的预处理方案,将高分辨率 RGB 帧划分为重叠的图块,使检测器能够更好地捕捉小型或远距离的火焰。
  • 全面基准测试 – 在新数据集上重新评估最先进的检测器(YOLOv7、RT‑DETR、YOLOv9),展示了 mAP₅₀₋₉₅ 的持续提升。

方法论

  1. 数据收集与增强

    • 从受控消防训练场地的夜视摄像机获取原始 NIR 视频。
    • 应用几何(旋转、缩放)、光度(亮度/对比度抖动)以及领域特定的增强(模拟烟雾、镜头光晕)来扩大训练数据池。
  2. 两阶段检测

    • 阶段 1: YOLOv11 在全帧 RGB‑NIR 合成图像上运行,快速提出边界框。
    • 阶段 2: 将每个提议裁剪后送入 EfficientNetV2‑B0,对其进行“火焰”或“非火焰”(如路灯)分类。该轻量网络在 GPU 上并行运行,保持低延迟。
  3. 针对 RGB 的 Patched‑YOLO

    • 将输入图像划分为重叠的补丁(例如 640 × 640,重叠 20 %)。
    • YOLO 对每个补丁独立处理;检测结果通过跨补丁的非极大值抑制合并。
    • 该策略在不显著增加内存使用的前提下,保留高分辨率细节。

所有训练均使用标准 COCO‑style 损失函数,并额外加权以惩罚人工灯光导致的误报。

结果与发现

模型(输入尺寸)mAP₅₀₋₉₅(RGB)mAP₅₀₋₉₅(NIR)假阳性率(灯光)
YOLOv7 (640 × 1280)0.510.4418 %
RT‑DETR (640 × 640)0.650.5812 %
YOLOv9 (640 × 640)0.5980.5514 %
两阶段(YOLOv11 + EffV2‑B0)0.710.686 %
Patched‑YOLO(仅 RGB)0.73
  • 两阶段流水线将整体 mAP 提高约 10%,相较于最强基线,同时将夜间人造灯光的假阳性率降低一半。
  • 与原始 YOLOv11 相比,Patched‑YOLO 将小型、远距离火焰的检测提升约 8% mAP,且推理时间仅略有增加(在 RTX 3080 上约为每帧 12 毫秒)。

Practical Implications

  • Fire‑monitoring systems can now run on edge devices (e.g., NVIDIA Jetson) with real‑time performance, thanks to the lightweight EfficientNetV2‑B0 classifier.
  • Reduced false alarms means fewer unnecessary dispatches for fire‑brigades, translating to cost savings and higher trust in automated surveillance.
  • Patch‑based processing can be adopted for any high‑resolution RGB detection task where small objects matter (e.g., wildlife spotting, drone‑based inspection).
  • The augmented NIR dataset is released under a permissive license, giving developers a ready‑to‑use benchmark for night‑vision AI research.

限制与未来工作

  • 当前的 NIR 数据仍来源于有限的受控火灾训练场地;在雨天、雾天等极端多变的户外环境下的性能尚未测试。
  • Patched‑YOLO 为合并检测引入了额外的账务管理,这在低功耗 CPU 上可能成为瓶颈。
  • 作者计划在第二阶段探索基于 transformer‑based 的骨干网络,并集成 temporal consistency(video‑level smoothing)以进一步抑制错误检测。

作者

  • Nguyen Truong Khai
  • Luong Duc Vinh

论文信息

  • arXiv ID: 2512.23594v1
  • 分类: cs.CV
  • 出版时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……