[Paper] EPRBench：高质量基准数据集用于基于事件流的视觉位置识别

发布: 3天前 (2026年2月13日 GMT+8 21:25)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12919v1

Overview

事件相机输出亮度变化的异步流，使得在传统帧式相机难以应对的场景（例如黑暗、运动模糊）中实现感知成为可能。本文推出 EPRBench，这是首个大规模、高质量的 事件流视觉位置识别 (VPR) 基准，并展示了如何将大型语言模型（LLMs）与事件数据融合，以提升识别准确性和可解释性。

EPRBench 数据集：10 K 事件序列（≈65 K 事件帧），采集自手持和车载装置，覆盖多视角、不同天气和光照条件。
语义标注：由大语言模型生成的场景描述经人工标注者精炼，支持语言引导的 VPR 研究。
全面基线：在新基准上实现并评估了 15 种最先进的 VPR 方法，提供明确的性能参考点。
多模态融合范式：一种新颖的流水线，(1) 使用大语言模型从原始事件流中提取文本场景线索，(2) 基于这些线索进行空间注意的 token 选择，(3) 实现跨模态特征融合，(4) 学习多尺度表征。
可解释性：该框架生成可供人类阅读的推理轨迹（例如，“在低光照下识别出‘湿沥青路面’”），提升模型透明度。
开源发布：数据集、代码和预训练模型已在 GitHub 上公开发布。

数据获取 – 事件相机（例如 Prophesee Metavision）在用户步行或车辆行驶于城市、郊区和室内环境时记录连续的事件流。每段序列被划分为短的“事件帧”（固定时间窗口），并与基于 GPS 的地点标签配对。
语义标注 – 将原始事件流输入大型语言模型（类似 GPT‑4），生成简洁的场景描述（例如 “黄昏时分的林荫街道”）。随后人工标注者纠正任何不准确之处，形成与每个事件帧对齐的高质量文本语料库。
基线 VPR 流程 – 将现有 VPR 算法（NetVLAD、DELG、SuperGlue 等）改造为能够处理事件帧，方式是将其转换为伪图像（事件计数图）或脉冲神经网络嵌入。
提出的融合架构
- LLM 编码器 将文本描述转换为密集的语言嵌入。
- 事件编码器（脉冲 CNN 或 Transformer）从事件帧中提取时空 token。
- 空间注意力 使用语言嵌入对语义相关的 token（例如 “道路标线”）进行加权。
- 跨模态融合 通过 Transformer 风格的跨注意力块将加权后的事件 token 与语言嵌入合并。
- 多尺度池化 在多个时间分辨率上聚合特征，生成鲁棒的地点描述子。
训练与推理 – 系统采用端到端的对比损失进行训练，使同一地点的描述子相互靠近、不同地点的描述子相互远离；同时使用辅助的语言引导损失，促进视觉和文本语义之间的对齐。

方法	Recall@1（手持）	Recall@1（车辆）	平均推理时间
NetVLAD (event‑image)	62.3 %	58.7 %	12 ms
DELG (event‑image)	68.1 %	64.5 %	18 ms
Proposed LLM‑fusion	84.7 %	80.2 %	22 ms
Human baseline (GPS)	100 %	100 %	–

Robotics & autonomous navigation – 在夜间、隧道中或快速机动时运行的车辆可以依赖基于事件的 VPR 进行回环检测和地图重新定位，而无需昂贵的照明硬件。
AR/VR headsets – 低功耗事件传感器结合语言感知的地点描述符，使得在传统相机因运动或低光而失效时仍能实现稳健的室内定位。
Edge deployment – 该流水线可在普通 GPU（或类脑处理器）上运行，延迟低于 30 ms，适用于无人机或手持设备的实时 SLAM。
Explainable AI – 文本推理可以呈现给操作员（例如，“识别出带有橙色锥桶的湿滑停车场”），用于调试故障或认证安全关键系统。
Cross‑modal research – 基准和代码为未来将事件流与其他模态（音频、LiDAR、雷达）以及大规模语言模型融合的研究提供了测试平台。

数据集偏差 – EPRBench 主要聚焦于城市/郊区场景；农村或高度动态的环境（人群、植被）仍然代表性不足。
对大语言模型的依赖 – 文本线索的质量取决于大语言模型的提示方式，可能会出现幻觉；需要更紧密地结合领域专用词汇。
硬件限制 – 虽然在 GPU 上推理速度快，但在专用神经形态芯片上实现真正的低功耗部署仍需进一步优化。
作者提出的未来方向 包括将基准扩展到多传感器套件（事件相机 + LiDAR），探索自监督语言对齐以降低标注成本，以及研究用于长期地点适应的持续学习方案。