[Paper] TrafficLens:使用大型语言模型的多摄像头交通视频分析

发布: (2025年11月26日 GMT+8 09:34)
6 min read
原文: arXiv

Source: arXiv - 2511.20965v1

概览

论文 TrafficLens 解决了一个真实世界的瓶颈:将数十路口摄像头的实时视频流快速转化为可操作的文本洞察,以满足城市运营者和执法团队的需求。作者通过巧妙地串联视觉语言模型(VLM)和轻量级相似度过滤器,将视频到文本的转换时间提升至最高 ,同时保持足够高的描述准确度,满足实际使用。

主要贡献

  • 顺序多摄像头流水线:复用前一个摄像头的输出作为下一个摄像头的提示,利用视野重叠。
  • 动态 token 预算:每次 VLM 调用的大小依据摄像头剩余的“信息预算”,避免不必要的长提示。
  • 对象级相似度检测器:对没有新增视觉内容的帧跳过 VLM 处理,显著降低冗余工作。
  • 真实场景评估:在多摄像头交叉口数据集上实现 4× 加速,描述保真度几乎不受影响。

方法论

  1. 预处理与重叠映射 – 系统首先构建摄像头之间视觉覆盖的映射(例如,两台相邻的摄像头都能看到同一车道)。
  2. 迭代 VLM 调用
    • 将摄像头 1 的视频片段输入 Vision‑Language Model,生成简洁的文本描述。
    • 该描述成为摄像头 2 的提示的一部分,摄像头 2 只需描述 相对于摄像头 1 已捕获内容的新增部分
    • 该过程对重叠链中的所有摄像头重复。
  3. Token 限制适配 – 每次 VLM 调用遵循每摄像头的 token 上限;如果前一次描述已经占用了大部分预算,下一次调用会相应裁剪。
  4. 对象级相似度检查 – 在调用 VLM 之前,轻量级检测器(如快速 CNN + 对象嵌入的余弦相似度)比较当前帧检测到的对象与已报告的对象。如果相似度超过阈值,则跳过 VLM 步骤,直接复用之前的文本。

整体流程是一个 检索增强生成 循环,先通过相似度检测“检索”视觉数据,再通过 VLM “生成”,形成类似人类分析师快速浏览重叠摄像头画面的工作方式。

结果与发现

指标基线(每摄像头独立 VLM)TrafficLens
每个交叉口的平均转换时间(秒)12.83.2(≈ 4× 更快)
文本保真度(BLEU‑4)0.710.68(Δ ≈ 4 %)
消除的冗余 VLM 调用比例0 %62 %
30 秒事件片段的端到端延迟15 s4.5 s

作者指出,BLEU‑4 略有下降主要是因为相似度过滤器剔除了重复细节(如 “一辆轿车直行”),这些信息在事件报告中通常并非必需。

实际意义

  • 更快的事件响应 – 操作员可以查询多摄像头交叉口并在 5 秒内获得连贯的文本摘要,实现近实时决策。
  • 成本效益的扩展 – 通过减少昂贵的 VLM 调用次数,城市 IT 预算能够在不成比例增加云计算开支的情况下支持更多摄像头。
  • 改进的可搜索档案 – 生成的文本可用于关键词索引,使事后调查(如 “查找所有在下午 5 点出现的红色卡车”)更加快捷。
  • 即插即用的 ITS 堆栈 – TrafficLens 只是一个管道包装器,可叠加在任何现成的 VLM(如 GPT‑4V、LLaVA)和任意目标检测器之上,仅需配置重叠映射。

构建智慧城市仪表盘、自动驾驶仿真平台或执法视频审查工具的开发者,可采用 TrafficLens 将原始视频流转化为结构化、可检索的叙述,而无需重新设计整个视觉系统。

局限性与未来工作

  • 依赖准确的重叠映射 – 摄像头几何对齐错误会导致信息遗漏或描述重复。
  • 相似度检测阈值为经验性设定 – 过于激进的剪枝可能会丢失微妙但重要的事件(如行人跨出路缘)。
  • 评估仅限单个城市数据集 – 需要在不同光照、天气和摄像头质量下进行更广泛的测试。
  • 未来方向 包括自动学习重叠图、融合时间推理(如跨摄像头追踪车辆)以及扩展至多模态查询(音频 + 视频)。

作者

  • Md Adnan Arefeen
  • Biplob Debnath
  • Srimat Chakradhar

论文信息

  • arXiv ID: 2511.20965v1
  • 分类: cs.CV, cs.CL
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »