[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性

发布: 3天前 (2026年2月13日 GMT+8 21:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.12902v1

概述

本文提出了一种系统化的方法，用于评估自动驾驶车辆（AV）目标检测模型在恶劣天气和光照条件下的表现。通过对基准图像进行可控的雾、雨、雪、黑暗、眩光等“风暴”合成，作者能够精确定位检测器首次失效的强度阈值，从而提供一个清晰、量化的鲁棒性得分。

First‑failure‑coefficient metric (AFFC)： 一种新颖、易于解释的度量，捕捉模型在一组图像上首次失败的平均强度水平。
Synthetic adverse‑condition pipeline： 包含七种参数化的数据增强算子（雾、雨、雪、暗、亮、耀斑、阴影），可调节至任意严重程度。
Comprehensive benchmark： 对四种流行检测器（YOLOv5s、YOLOv11s、Faster R-CNN、Detectron2）在全部七种条件下进行评估。
Training‑for‑robustness study： 证明使用合成恶劣天气进行数据增强可提升模型鲁棒性，但也显示出过度训练时收益递减和灾难性遗忘。
Open‑source implementation： 作者公开代码和增强配方，使任何检测模型的鲁棒性测试可复现。

基准数据集： 使用标准目标检测基准（例如 COCO 类图像）作为干净参考。
不良条件生成器： 七个算子中的每一个接受一张干净图像和一个标量强度 (t)（0 = 无效应，1 = 最大效应），并生成天气改变的版本。这些算子基于广为人知的图形技术（例如，柏林噪声雾、运动模糊雨痕、光照缩放）。
渐进探测： 对每张测试图像，逐步增加强度 (t)，直至检测器的输出不再满足预定义的 IoU/分数阈值。记录触发失败的最小 (t)，作为该图像的 首次失败系数。
结果聚合： 通过对整个基准中每幅图像的失败系数取平均，计算 平均首次失败系数 (AFFC)，从而为每个模型‑条件组合得到一个单一的鲁棒性数值。
鲁棒性增强训练： 使用干净图像和合成腐蚀图像的混合对模型进行再训练。随后再次使用相同的 AFFC 流程评估性能提升或下降。

Model	Overall AFFC (average over 7 conditions)	Best‑case condition	Worst‑case condition
Faster R-CNN	71.9 %	雾 (≈78 %)	强光眩光 (≈65 %)
Detectron2	68 %	雪 (≈73 %)	暗光 (≈60 %)
YOLOv5s	43 %	雨 (≈48 %)	阴影 (≈38 %)
YOLOv11s	42 %	雾 (≈46 %)	暗光 (≈35 %)

Faster R-CNN 在出现更高严重程度之前能够持续工作，因而在所测试的检测器中最为稳健。
YOLO 系列 模型衰减更快，尤其在低光和高对比度光照条件下（暗光、眩光、阴影）表现较差。
将合成的恶劣天气图像加入训练集可使大多数模型的 AFFC 提升约 10–15 %，但当增强比例超过一定阈值时，提升会趋于平台期，甚至出现逆转（干净场景性能遗忘）。

安全‑by‑design 阈值： AV 制造商可以使用 AFFC 来定义运营设计域（ODDs）。例如，配备 Faster R-CNN 的车辆可以被认证在雾密度约为 0.7（作者的量表）时安全运行。
边缘设备的模型选择： 针对低功耗硬件的开发者在鲁棒性至关重要时可能倾向于使用 Faster R-CNN 或 Detectron2，尽管它们的计算成本更高；而 YOLO 系列仍然适用于以速度为先的应用，并可通过雷达等补充传感器融合。
数据增强流水线： 这七个算子可以嵌入现有的训练工作流（PyTorch、TensorFlow），生成“抗天气”模型，而无需收集昂贵的真实雨雪数据。
持续验证： AFFC 提供一种轻量级回归测试，可在每晚对新模型构建进行运行，及时捕捉鲁棒性回归，融入 CI 流程。
监管报告： 该指标提供了可量化、可重复的数值，监管机构可以在安全案例中要求使用，类似于传统车辆的碰撞测试评级。

Synthetic vs. real weather: 虽然这些增强近似物理效应，但可能遗漏细微的传感器特定伪影（例如镜头眩光、摄像头外壳上的水滴）。仍需进行真实世界的验证。
Single‑sensor focus: 本研究仅评估基于摄像头的检测；将框架扩展到激光雷达、雷达或多模态融合将扩大其适用范围。
Static intensity scaling: 当前流水线将强度视为标量；未来工作可以建模时空动态（例如移动的雨痕），并评估基于视频的检测器。
Forgetting mitigation: 在不良条件下过度训练导致的性能下降表明，需要更智能的课程安排或正则化策略，以保持清晰场景的性能。

Bottom line: 通过将“恶劣天气”转化为可控的测试旋钮，本研究为自动驾驶工程师提供了一个实用的衡量标准——AFFC，以比较、调优并认证面向真实世界更复杂环境的目标检测模型。