[Paper] BEVDilation:LiDAR中心的多模态融合用于3D目标检测

发布: (2025年12月3日 GMT+8 01:50)
5 min read
原文: arXiv

Source: arXiv - 2512.02972v1

概览

论文 BEVDilation 提出了一种将 LiDAR 与相机数据融合用于 3D 目标检测的新方法,核心将 LiDAR 放在管线的中心。通过将图像生成的 BEV 特征视为 引导 而非原始输入,作者显著降低了由于图像深度估计噪声导致的空间错位问题,从而提升了性能。

主要贡献

  • 以 LiDAR 为中心的融合范式 – 优先保证 LiDAR 的几何精度,仅将相机信息作为隐式引导。
  • 稀疏体素膨胀块 – 通过注入图像先验来致密前景体素,缓解点云稀疏性。
  • 语义引导的 BEV 膨胀块 – 利用图像的语义信息丰富 LiDAR 特征扩散,并捕获长程上下文。
  • 对深度噪声的鲁棒性 – 实验证明,引导式方法对错误深度估计的敏感度远低于直接拼接。
  • 在 nuScenes 上的最新成果 – 在保持推理速度竞争力的同时,超越现有多模态检测器。

方法论

  1. 基础 LiDAR 主干 – 系统首先使用传统的基于体素的 LiDAR 编码器生成 BEV 特征图。
  2. 图像到 BEV 投影(仅作引导) – 相机图像经 2‑D CNN 处理后,利用估计的深度投影到 BEV 空间。与其将这些特征与 LiDAR 特征拼接,不如保持分离,随后作为 软引导 使用。
  3. 稀疏体素膨胀块
    • 识别前景体素(例如潜在的车辆位置)。
    • 使用投影得到的图像 BEV 作为掩码,对这些体素进行 “膨胀”,填补 LiDAR 稀疏导致的空洞。
  4. 语义引导的 BEV 膨胀块
    • 对膨胀后的体素图执行扩散式操作,将图像中的语义线索(道路、车辆、行人)传播到 LiDAR BEV。
    • 引入长程上下文模块(如可变形注意力),捕获超出局部邻域的关系。
  5. 检测头 – 经过强化的 BEV 特征图送入标准的无锚 3D 检测头,预测边界框和类别分数。

整体流程可视化为 LiDAR → BEV 编码器 →(使用图像 BEV 的引导膨胀) → 强化 BEV → 检测器

结果与发现

  • nuScenes 验证集:BEVDilation 相比之前最好的 LiDAR‑相机融合模型提升 +1.8 % mAP+2.3 % NDS,额外延迟约 ~10 ms。
  • 深度噪声鲁棒性测试:在图像分支加入合成深度噪声后,BEVDilation 的性能下降 < 0.5 %,而直接拼接方法下降 > 3 %。
  • 消融实验:去除稀疏体素膨胀块或语义引导的 BEV 膨胀块任意一个,mAP 均下降约 1 %,表明两块各自贡献独特。

实际意义

  • 更安全的自动驾驶系统 – 先依赖 LiDAR 几何信息,使检测器在相机深度估计失效(如光照或天气不佳)时仍保持可靠。
  • 更易集成 – 现有的仅 LiDAR 管线只需插入这两个膨胀块,即可采用 BEVDilation,无需重新设计整体主干。
  • 适合边缘部署 – 方法仅带来适度的计算开销,适用于汽车级 GPU 或专用 ASIC 的实时推理。
  • 提升低密度 LiDAR 的感知能力 – 稀疏填充机制对成本较低、每帧点数较少的 LiDAR 传感器尤为有价值。

局限性与未来工作

  • 该方法仍依赖相对准确的深度估计进行图像到 BEV 的投影;极端深度失效可能削弱引导质量。
  • 实验仅在 nuScenes 数据集上完成,需在其他场景(如高速公路或室内机器人)进行更广泛验证。
  • 作者建议在后续工作中探索 自监督语义引导动态膨胀率,以进一步适应不同场景密度的变化。

作者

  • Guowen Zhang
  • Chenhang He
  • Liyi Chen
  • Lei Zhang

论文信息

  • arXiv ID: 2512.02972v1
  • 分类: cs.CV, cs.RO
  • 发表时间: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »