[Paper] TrafficLens：使用大型语言模型的多摄像头交通视频分析

发布: 2个月前 (2025年11月26日 GMT+8 09:34)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.20965v1

概览

论文 TrafficLens 解决了一个真实世界的瓶颈：将数十路口摄像头的实时视频流快速转化为可操作的文本洞察，以满足城市运营者和执法团队的需求。作者通过巧妙地串联视觉语言模型（VLM）和轻量级相似度过滤器，将视频到文本的转换时间提升至最高 4×，同时保持足够高的描述准确度，满足实际使用。

预处理与重叠映射 – 系统首先构建摄像头之间视觉覆盖的映射（例如，两台相邻的摄像头都能看到同一车道）。
迭代 VLM 调用 –
- 将摄像头 1 的视频片段输入 Vision‑Language Model，生成简洁的文本描述。
- 该描述成为摄像头 2 的提示的一部分，摄像头 2 只需描述 相对于摄像头 1 已捕获内容的新增部分。
- 该过程对重叠链中的所有摄像头重复。
Token 限制适配 – 每次 VLM 调用遵循每摄像头的 token 上限；如果前一次描述已经占用了大部分预算，下一次调用会相应裁剪。
对象级相似度检查 – 在调用 VLM 之前，轻量级检测器（如快速 CNN + 对象嵌入的余弦相似度）比较当前帧检测到的对象与已报告的对象。如果相似度超过阈值，则跳过 VLM 步骤，直接复用之前的文本。

整体流程是一个 检索增强生成 循环，先通过相似度检测“检索”视觉数据，再通过 VLM “生成”，形成类似人类分析师快速浏览重叠摄像头画面的工作方式。

作者指出，BLEU‑4 略有下降主要是因为相似度过滤器剔除了重复细节（如 “一辆轿车直行”），这些信息在事件报告中通常并非必需。

更快的事件响应 – 操作员可以查询多摄像头交叉口并在 5 秒内获得连贯的文本摘要，实现近实时决策。
成本效益的扩展 – 通过减少昂贵的 VLM 调用次数，城市 IT 预算能够在不成比例增加云计算开支的情况下支持更多摄像头。
改进的可搜索档案 – 生成的文本可用于关键词索引，使事后调查（如 “查找所有在下午 5 点出现的红色卡车”）更加快捷。
即插即用的 ITS 堆栈 – TrafficLens 只是一个管道包装器，可叠加在任何现成的 VLM（如 GPT‑4V、LLaVA）和任意目标检测器之上，仅需配置重叠映射。

构建智慧城市仪表盘、自动驾驶仿真平台或执法视频审查工具的开发者，可采用 TrafficLens 将原始视频流转化为结构化、可检索的叙述，而无需重新设计整个视觉系统。