[Paper] EPRBench:高质量基准数据集用于基于事件流的视觉位置识别

发布: (2026年2月13日 GMT+8 21:25)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.12919v1

Overview

事件相机输出亮度变化的异步流,使得在传统帧式相机难以应对的场景(例如黑暗、运动模糊)中实现感知成为可能。本文推出 EPRBench,这是首个大规模、高质量的 事件流视觉位置识别 (VPR) 基准,并展示了如何将大型语言模型(LLMs)与事件数据融合,以提升识别准确性和可解释性。

关键贡献

  • EPRBench 数据集:10 K 事件序列(≈65 K 事件帧),采集自手持和车载装置,覆盖多视角、不同天气和光照条件。
  • 语义标注:由大语言模型生成的场景描述经人工标注者精炼,支持语言引导的 VPR 研究。
  • 全面基线:在新基准上实现并评估了 15 种最先进的 VPR 方法,提供明确的性能参考点。
  • 多模态融合范式:一种新颖的流水线,(1) 使用大语言模型从原始事件流中提取文本场景线索,(2) 基于这些线索进行空间注意的 token 选择,(3) 实现跨模态特征融合,(4) 学习多尺度表征。
  • 可解释性:该框架生成可供人类阅读的推理轨迹(例如,“在低光照下识别出‘湿沥青路面’”),提升模型透明度。
  • 开源发布:数据集、代码和预训练模型已在 GitHub 上公开发布。

方法论

  1. 数据获取 – 事件相机(例如 Prophesee Metavision)在用户步行或车辆行驶于城市、郊区和室内环境时记录连续的事件流。每段序列被划分为短的“事件帧”(固定时间窗口),并与基于 GPS 的地点标签配对。
  2. 语义标注 – 将原始事件流输入大型语言模型(类似 GPT‑4),生成简洁的场景描述(例如 “黄昏时分的林荫街道”)。随后人工标注者纠正任何不准确之处,形成与每个事件帧对齐的高质量文本语料库。
  3. 基线 VPR 流程 – 将现有 VPR 算法(NetVLAD、DELG、SuperGlue 等)改造为能够处理事件帧,方式是将其转换为伪图像(事件计数图)或脉冲神经网络嵌入。
  4. 提出的融合架构
    • LLM 编码器 将文本描述转换为密集的语言嵌入。
    • 事件编码器(脉冲 CNN 或 Transformer)从事件帧中提取时空 token。
    • 空间注意力 使用语言嵌入对语义相关的 token(例如 “道路标线”)进行加权。
    • 跨模态融合 通过 Transformer 风格的跨注意力块将加权后的事件 token 与语言嵌入合并。
    • 多尺度池化 在多个时间分辨率上聚合特征,生成鲁棒的地点描述子。
  5. 训练与推理 – 系统采用端到端的对比损失进行训练,使同一地点的描述子相互靠近、不同地点的描述子相互远离;同时使用辅助的语言引导损失,促进视觉和文本语义之间的对齐。

结果与发现

方法Recall@1(手持)Recall@1(车辆)平均推理时间
NetVLAD (event‑image)62.3 %58.7 %12 ms
DELG (event‑image)68.1 %64.5 %18 ms
Proposed LLM‑fusion84.7 %80.2 %22 ms
Human baseline (GPS)100 %100 %
  • LLM 引导的融合在 ~15‑20 % 绝对 Recall@1 上优于所有仅视觉基线,尤其在极端低光或高速运动下,事件数据单独使用时噪声较大。
  • 消融实验表明,去除语言注意力会使性能下降约 7 %,验证了文本语义的互补作用。
  • 推理输出(如高亮的 token 和生成的描述)在 >90 % 的案例中与人类直觉一致,展示了有效的可解释性。

实际意义

  • Robotics & autonomous navigation – 在夜间、隧道中或快速机动时运行的车辆可以依赖基于事件的 VPR 进行回环检测和地图重新定位,而无需昂贵的照明硬件。
  • AR/VR headsets – 低功耗事件传感器结合语言感知的地点描述符,使得在传统相机因运动或低光而失效时仍能实现稳健的室内定位。
  • Edge deployment – 该流水线可在普通 GPU(或类脑处理器)上运行,延迟低于 30 ms,适用于无人机或手持设备的实时 SLAM。
  • Explainable AI – 文本推理可以呈现给操作员(例如,“识别出带有橙色锥桶的湿滑停车场”),用于调试故障或认证安全关键系统。
  • Cross‑modal research – 基准和代码为未来将事件流与其他模态(音频、LiDAR、雷达)以及大规模语言模型融合的研究提供了测试平台。

限制与未来工作

  • 数据集偏差 – EPRBench 主要聚焦于城市/郊区场景;农村或高度动态的环境(人群、植被)仍然代表性不足。
  • 对大语言模型的依赖 – 文本线索的质量取决于大语言模型的提示方式,可能会出现幻觉;需要更紧密地结合领域专用词汇。
  • 硬件限制 – 虽然在 GPU 上推理速度快,但在专用神经形态芯片上实现真正的低功耗部署仍需进一步优化。
  • 作者提出的未来方向 包括将基准扩展到多传感器套件(事件相机 + LiDAR),探索自监督语言对齐以降低标注成本,以及研究用于长期地点适应的持续学习方案。

作者

  • Xiao Wang
  • Xingxing Xiong
  • Jinfeng Gao
  • Xufeng Lou
  • Bo Jiang
  • Si-bao Chen
  • Yaowei Wang
  • Yonghong Tian

论文信息

  • arXiv ID: 2602.12919v1
  • Categories: cs.CV, cs.AI, cs.NE
  • Published: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »