[Paper] 摄像头 RGB‑NIR 火灾检测

发布: 1周前 (2025年12月30日 GMT+8 00:48)

5 min read

原文: arXiv

Source: arXiv - 2512.23594v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文针对基于计算机视觉的火灾监测中一个长期存在的问题进行研究：使用 RGB‑NIR（近红外）摄像头在夜间可靠地检测火焰。通过增强稀缺的 NIR 数据、引入两阶段检测流水线，并提出一种基于补丁的 YOLO 变体，作者在提升检测精度至最佳已发表结果之上，同时减少了由强光人工灯光引起的误报。

数据收集与增强
- 从受控消防训练场地的夜视摄像机获取原始 NIR 视频。
- 应用几何（旋转、缩放）、光度（亮度/对比度抖动）以及领域特定的增强（模拟烟雾、镜头光晕）来扩大训练数据池。
两阶段检测
- 阶段 1： YOLOv11 在全帧 RGB‑NIR 合成图像上运行，快速提出边界框。
- 阶段 2： 将每个提议裁剪后送入 EfficientNetV2‑B0，对其进行“火焰”或“非火焰”（如路灯）分类。该轻量网络在 GPU 上并行运行，保持低延迟。
针对 RGB 的 Patched‑YOLO
- 将输入图像划分为重叠的补丁（例如 640 × 640，重叠 20 %）。
- YOLO 对每个补丁独立处理；检测结果通过跨补丁的非极大值抑制合并。
- 该策略在不显著增加内存使用的前提下，保留高分辨率细节。

所有训练均使用标准 COCO‑style 损失函数，并额外加权以惩罚人工灯光导致的误报。

模型（输入尺寸）	mAP₅₀₋₉₅（RGB）	mAP₅₀₋₉₅（NIR）	假阳性率（灯光）
YOLOv7 (640 × 1280)	0.51	0.44	18 %
RT‑DETR (640 × 640)	0.65	0.58	12 %
YOLOv9 (640 × 640)	0.598	0.55	14 %
两阶段（YOLOv11 + EffV2‑B0）	0.71	0.68	6 %
Patched‑YOLO（仅 RGB）	0.73	–	–

两阶段流水线将整体 mAP 提高约 10%，相较于最强基线，同时将夜间人造灯光的假阳性率降低一半。
与原始 YOLOv11 相比，Patched‑YOLO 将小型、远距离火焰的检测提升约 8% mAP，且推理时间仅略有增加（在 RTX 3080 上约为每帧 12 毫秒）。

Fire‑monitoring systems can now run on edge devices (e.g., NVIDIA Jetson) with real‑time performance, thanks to the lightweight EfficientNetV2‑B0 classifier.
Reduced false alarms means fewer unnecessary dispatches for fire‑brigades, translating to cost savings and higher trust in automated surveillance.
Patch‑based processing can be adopted for any high‑resolution RGB detection task where small objects matter (e.g., wildlife spotting, drone‑based inspection).
The augmented NIR dataset is released under a permissive license, giving developers a ready‑to‑use benchmark for night‑vision AI research.

当前的 NIR 数据仍来源于有限的受控火灾训练场地；在雨天、雾天等极端多变的户外环境下的性能尚未测试。
Patched‑YOLO 为合并检测引入了额外的账务管理，这在低功耗 CPU 上可能成为瓶颈。
作者计划在第二阶段探索基于 transformer‑based 的骨干网络，并集成 temporal consistency（video‑level smoothing）以进一步抑制错误检测。