[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性

发布: (2026年2月13日 GMT+8 21:02)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.12902v1

概述

本文提出了一种系统化的方法,用于评估自动驾驶车辆(AV)目标检测模型在恶劣天气和光照条件下的表现。通过对基准图像进行可控的雾、雨、雪、黑暗、眩光等“风暴”合成,作者能够精确定位检测器首次失效的强度阈值,从而提供一个清晰、量化的鲁棒性得分。

关键贡献

  • First‑failure‑coefficient metric (AFFC): 一种新颖、易于解释的度量,捕捉模型在一组图像上首次失败的平均强度水平。
  • Synthetic adverse‑condition pipeline: 包含七种参数化的数据增强算子(雾、雨、雪、暗、亮、耀斑、阴影),可调节至任意严重程度。
  • Comprehensive benchmark: 对四种流行检测器(YOLOv5s、YOLOv11s、Faster R-CNN、Detectron2)在全部七种条件下进行评估。
  • Training‑for‑robustness study: 证明使用合成恶劣天气进行数据增强可提升模型鲁棒性,但也显示出过度训练时收益递减和灾难性遗忘。
  • Open‑source implementation: 作者公开代码和增强配方,使任何检测模型的鲁棒性测试可复现。

方法论

  1. 基准数据集: 使用标准目标检测基准(例如 COCO 类图像)作为干净参考。
  2. 不良条件生成器: 七个算子中的每一个接受一张干净图像和一个标量强度 (t)(0 = 无效应,1 = 最大效应),并生成天气改变的版本。这些算子基于广为人知的图形技术(例如,柏林噪声雾、运动模糊雨痕、光照缩放)。
  3. 渐进探测: 对每张测试图像,逐步增加强度 (t),直至检测器的输出不再满足预定义的 IoU/分数阈值。记录触发失败的最小 (t),作为该图像的 首次失败系数
  4. 结果聚合: 通过对整个基准中每幅图像的失败系数取平均,计算 平均首次失败系数 (AFFC),从而为每个模型‑条件组合得到一个单一的鲁棒性数值。
  5. 鲁棒性增强训练: 使用干净图像和合成腐蚀图像的混合对模型进行再训练。随后再次使用相同的 AFFC 流程评估性能提升或下降。

结果与发现

ModelOverall AFFC (average over 7 conditions)Best‑case conditionWorst‑case condition
Faster R-CNN71.9 %雾 (≈78 %)强光眩光 (≈65 %)
Detectron268 %雪 (≈73 %)暗光 (≈60 %)
YOLOv5s43 %雨 (≈48 %)阴影 (≈38 %)
YOLOv11s42 %雾 (≈46 %)暗光 (≈35 %)
  • Faster R-CNN 在出现更高严重程度之前能够持续工作,因而在所测试的检测器中最为稳健。
  • YOLO 系列 模型衰减更快,尤其在低光和高对比度光照条件下(暗光、眩光、阴影)表现较差。
  • 将合成的恶劣天气图像加入训练集可使大多数模型的 AFFC 提升约 10–15 %,但当增强比例超过一定阈值时,提升会趋于平台期,甚至出现逆转(干净场景性能遗忘)。

实际意义

  • 安全‑by‑design 阈值: AV 制造商可以使用 AFFC 来定义运营设计域(ODDs)。例如,配备 Faster R-CNN 的车辆可以被认证在雾密度约为 0.7(作者的量表)时安全运行。
  • 边缘设备的模型选择: 针对低功耗硬件的开发者在鲁棒性至关重要时可能倾向于使用 Faster R-CNN 或 Detectron2,尽管它们的计算成本更高;而 YOLO 系列仍然适用于以速度为先的应用,并可通过雷达等补充传感器融合。
  • 数据增强流水线: 这七个算子可以嵌入现有的训练工作流(PyTorch、TensorFlow),生成“抗天气”模型,而无需收集昂贵的真实雨雪数据。
  • 持续验证: AFFC 提供一种轻量级回归测试,可在每晚对新模型构建进行运行,及时捕捉鲁棒性回归,融入 CI 流程。
  • 监管报告: 该指标提供了可量化、可重复的数值,监管机构可以在安全案例中要求使用,类似于传统车辆的碰撞测试评级。

限制与未来工作

  • Synthetic vs. real weather: 虽然这些增强近似物理效应,但可能遗漏细微的传感器特定伪影(例如镜头眩光、摄像头外壳上的水滴)。仍需进行真实世界的验证。
  • Single‑sensor focus: 本研究仅评估基于摄像头的检测;将框架扩展到激光雷达、雷达或多模态融合将扩大其适用范围。
  • Static intensity scaling: 当前流水线将强度视为标量;未来工作可以建模时空动态(例如移动的雨痕),并评估基于视频的检测器。
  • Forgetting mitigation: 在不良条件下过度训练导致的性能下降表明,需要更智能的课程安排或正则化策略,以保持清晰场景的性能。

Bottom line: 通过将“恶劣天气”转化为可控的测试旋钮,本研究为自动驾驶工程师提供了一个实用的衡量标准——AFFC,以比较、调优并认证面向真实世界更复杂环境的目标检测模型。

作者

  • Fox Pettersen
  • Hong Zhu

论文信息

  • arXiv ID: 2602.12902v1
  • Categories: cs.CV, cs.AI, cs.LG, cs.SE
  • Published: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »