[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性
发布: (2026年2月13日 GMT+8 21:02)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.12902v1
概述
本文提出了一种系统化的方法,用于评估自动驾驶车辆(AV)目标检测模型在恶劣天气和光照条件下的表现。通过对基准图像进行可控的雾、雨、雪、黑暗、眩光等“风暴”合成,作者能够精确定位检测器首次失效的强度阈值,从而提供一个清晰、量化的鲁棒性得分。
关键贡献
- First‑failure‑coefficient metric (AFFC): 一种新颖、易于解释的度量,捕捉模型在一组图像上首次失败的平均强度水平。
- Synthetic adverse‑condition pipeline: 包含七种参数化的数据增强算子(雾、雨、雪、暗、亮、耀斑、阴影),可调节至任意严重程度。
- Comprehensive benchmark: 对四种流行检测器(YOLOv5s、YOLOv11s、Faster R-CNN、Detectron2)在全部七种条件下进行评估。
- Training‑for‑robustness study: 证明使用合成恶劣天气进行数据增强可提升模型鲁棒性,但也显示出过度训练时收益递减和灾难性遗忘。
- Open‑source implementation: 作者公开代码和增强配方,使任何检测模型的鲁棒性测试可复现。
方法论
- 基准数据集: 使用标准目标检测基准(例如 COCO 类图像)作为干净参考。
- 不良条件生成器: 七个算子中的每一个接受一张干净图像和一个标量强度 (t)(0 = 无效应,1 = 最大效应),并生成天气改变的版本。这些算子基于广为人知的图形技术(例如,柏林噪声雾、运动模糊雨痕、光照缩放)。
- 渐进探测: 对每张测试图像,逐步增加强度 (t),直至检测器的输出不再满足预定义的 IoU/分数阈值。记录触发失败的最小 (t),作为该图像的 首次失败系数。
- 结果聚合: 通过对整个基准中每幅图像的失败系数取平均,计算 平均首次失败系数 (AFFC),从而为每个模型‑条件组合得到一个单一的鲁棒性数值。
- 鲁棒性增强训练: 使用干净图像和合成腐蚀图像的混合对模型进行再训练。随后再次使用相同的 AFFC 流程评估性能提升或下降。
结果与发现
| Model | Overall AFFC (average over 7 conditions) | Best‑case condition | Worst‑case condition |
|---|---|---|---|
| Faster R-CNN | 71.9 % | 雾 (≈78 %) | 强光眩光 (≈65 %) |
| Detectron2 | 68 % | 雪 (≈73 %) | 暗光 (≈60 %) |
| YOLOv5s | 43 % | 雨 (≈48 %) | 阴影 (≈38 %) |
| YOLOv11s | 42 % | 雾 (≈46 %) | 暗光 (≈35 %) |
- Faster R-CNN 在出现更高严重程度之前能够持续工作,因而在所测试的检测器中最为稳健。
- YOLO 系列 模型衰减更快,尤其在低光和高对比度光照条件下(暗光、眩光、阴影)表现较差。
- 将合成的恶劣天气图像加入训练集可使大多数模型的 AFFC 提升约 10–15 %,但当增强比例超过一定阈值时,提升会趋于平台期,甚至出现逆转(干净场景性能遗忘)。
实际意义
- 安全‑by‑design 阈值: AV 制造商可以使用 AFFC 来定义运营设计域(ODDs)。例如,配备 Faster R-CNN 的车辆可以被认证在雾密度约为 0.7(作者的量表)时安全运行。
- 边缘设备的模型选择: 针对低功耗硬件的开发者在鲁棒性至关重要时可能倾向于使用 Faster R-CNN 或 Detectron2,尽管它们的计算成本更高;而 YOLO 系列仍然适用于以速度为先的应用,并可通过雷达等补充传感器融合。
- 数据增强流水线: 这七个算子可以嵌入现有的训练工作流(PyTorch、TensorFlow),生成“抗天气”模型,而无需收集昂贵的真实雨雪数据。
- 持续验证: AFFC 提供一种轻量级回归测试,可在每晚对新模型构建进行运行,及时捕捉鲁棒性回归,融入 CI 流程。
- 监管报告: 该指标提供了可量化、可重复的数值,监管机构可以在安全案例中要求使用,类似于传统车辆的碰撞测试评级。
限制与未来工作
- Synthetic vs. real weather: 虽然这些增强近似物理效应,但可能遗漏细微的传感器特定伪影(例如镜头眩光、摄像头外壳上的水滴)。仍需进行真实世界的验证。
- Single‑sensor focus: 本研究仅评估基于摄像头的检测;将框架扩展到激光雷达、雷达或多模态融合将扩大其适用范围。
- Static intensity scaling: 当前流水线将强度视为标量;未来工作可以建模时空动态(例如移动的雨痕),并评估基于视频的检测器。
- Forgetting mitigation: 在不良条件下过度训练导致的性能下降表明,需要更智能的课程安排或正则化策略,以保持清晰场景的性能。
Bottom line: 通过将“恶劣天气”转化为可控的测试旋钮,本研究为自动驾驶工程师提供了一个实用的衡量标准——AFFC,以比较、调优并认证面向真实世界更复杂环境的目标检测模型。
作者
- Fox Pettersen
- Hong Zhu
论文信息
- arXiv ID: 2602.12902v1
- Categories: cs.CV, cs.AI, cs.LG, cs.SE
- Published: 2026年2月13日
- PDF: 下载 PDF