[Paper] EPRBench:高质量基准数据集用于基于事件流的视觉位置识别
发布: (2026年2月13日 GMT+8 21:25)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.12919v1
Overview
事件相机输出亮度变化的异步流,使得在传统帧式相机难以应对的场景(例如黑暗、运动模糊)中实现感知成为可能。本文推出 EPRBench,这是首个大规模、高质量的 事件流视觉位置识别 (VPR) 基准,并展示了如何将大型语言模型(LLMs)与事件数据融合,以提升识别准确性和可解释性。
关键贡献
- EPRBench 数据集:10 K 事件序列(≈65 K 事件帧),采集自手持和车载装置,覆盖多视角、不同天气和光照条件。
- 语义标注:由大语言模型生成的场景描述经人工标注者精炼,支持语言引导的 VPR 研究。
- 全面基线:在新基准上实现并评估了 15 种最先进的 VPR 方法,提供明确的性能参考点。
- 多模态融合范式:一种新颖的流水线,(1) 使用大语言模型从原始事件流中提取文本场景线索,(2) 基于这些线索进行空间注意的 token 选择,(3) 实现跨模态特征融合,(4) 学习多尺度表征。
- 可解释性:该框架生成可供人类阅读的推理轨迹(例如,“在低光照下识别出‘湿沥青路面’”),提升模型透明度。
- 开源发布:数据集、代码和预训练模型已在 GitHub 上公开发布。
方法论
- 数据获取 – 事件相机(例如 Prophesee Metavision)在用户步行或车辆行驶于城市、郊区和室内环境时记录连续的事件流。每段序列被划分为短的“事件帧”(固定时间窗口),并与基于 GPS 的地点标签配对。
- 语义标注 – 将原始事件流输入大型语言模型(类似 GPT‑4),生成简洁的场景描述(例如 “黄昏时分的林荫街道”)。随后人工标注者纠正任何不准确之处,形成与每个事件帧对齐的高质量文本语料库。
- 基线 VPR 流程 – 将现有 VPR 算法(NetVLAD、DELG、SuperGlue 等)改造为能够处理事件帧,方式是将其转换为伪图像(事件计数图)或脉冲神经网络嵌入。
- 提出的融合架构
- LLM 编码器 将文本描述转换为密集的语言嵌入。
- 事件编码器(脉冲 CNN 或 Transformer)从事件帧中提取时空 token。
- 空间注意力 使用语言嵌入对语义相关的 token(例如 “道路标线”)进行加权。
- 跨模态融合 通过 Transformer 风格的跨注意力块将加权后的事件 token 与语言嵌入合并。
- 多尺度池化 在多个时间分辨率上聚合特征,生成鲁棒的地点描述子。
- 训练与推理 – 系统采用端到端的对比损失进行训练,使同一地点的描述子相互靠近、不同地点的描述子相互远离;同时使用辅助的语言引导损失,促进视觉和文本语义之间的对齐。
结果与发现
| 方法 | Recall@1(手持) | Recall@1(车辆) | 平均推理时间 |
|---|---|---|---|
| NetVLAD (event‑image) | 62.3 % | 58.7 % | 12 ms |
| DELG (event‑image) | 68.1 % | 64.5 % | 18 ms |
| Proposed LLM‑fusion | 84.7 % | 80.2 % | 22 ms |
| Human baseline (GPS) | 100 % | 100 % | – |
- LLM 引导的融合在 ~15‑20 % 绝对 Recall@1 上优于所有仅视觉基线,尤其在极端低光或高速运动下,事件数据单独使用时噪声较大。
- 消融实验表明,去除语言注意力会使性能下降约 7 %,验证了文本语义的互补作用。
- 推理输出(如高亮的 token 和生成的描述)在 >90 % 的案例中与人类直觉一致,展示了有效的可解释性。
实际意义
- Robotics & autonomous navigation – 在夜间、隧道中或快速机动时运行的车辆可以依赖基于事件的 VPR 进行回环检测和地图重新定位,而无需昂贵的照明硬件。
- AR/VR headsets – 低功耗事件传感器结合语言感知的地点描述符,使得在传统相机因运动或低光而失效时仍能实现稳健的室内定位。
- Edge deployment – 该流水线可在普通 GPU(或类脑处理器)上运行,延迟低于 30 ms,适用于无人机或手持设备的实时 SLAM。
- Explainable AI – 文本推理可以呈现给操作员(例如,“识别出带有橙色锥桶的湿滑停车场”),用于调试故障或认证安全关键系统。
- Cross‑modal research – 基准和代码为未来将事件流与其他模态(音频、LiDAR、雷达)以及大规模语言模型融合的研究提供了测试平台。
限制与未来工作
- 数据集偏差 – EPRBench 主要聚焦于城市/郊区场景;农村或高度动态的环境(人群、植被)仍然代表性不足。
- 对大语言模型的依赖 – 文本线索的质量取决于大语言模型的提示方式,可能会出现幻觉;需要更紧密地结合领域专用词汇。
- 硬件限制 – 虽然在 GPU 上推理速度快,但在专用神经形态芯片上实现真正的低功耗部署仍需进一步优化。
- 作者提出的未来方向 包括将基准扩展到多传感器套件(事件相机 + LiDAR),探索自监督语言对齐以降低标注成本,以及研究用于长期地点适应的持续学习方案。
作者
- Xiao Wang
- Xingxing Xiong
- Jinfeng Gao
- Xufeng Lou
- Bo Jiang
- Si-bao Chen
- Yaowei Wang
- Yonghong Tian
论文信息
- arXiv ID: 2602.12919v1
- Categories: cs.CV, cs.AI, cs.NE
- Published: 2026年2月13日
- PDF: 下载 PDF