[Paper] 视觉与知识增强的大型语言模型用于可推广的行人过街行为推断
发布: (2026年1月2日 GMT+8 22:13)
7 min read
原文: arXiv
Source: arXiv - 2601.00694v1
概述
本文提出 Pedestrian Crossing LLM (PedX‑LLM),这是一种新颖的框架,将视觉感知与领域特定知识相结合,使大型语言模型能够推理行人是否会横穿马路。通过从纯模式匹配转向语义、上下文感知的推理,作者实现了对新颖、未见过地点的显著更好泛化——这是实际交通安全系统的关键一步。
关键贡献
- 视觉与知识整合: 将 LLaVA 提取的视觉嵌入与文本运输知识相结合,以丰富 LLaMA‑2‑7B 模型。
- 低秩适配 (LoRA) 微调: 在不进行完整再训练的情况下高效适配大型语言模型,保持计算成本适中。
- 显著的实证提升: 在完整数据集上达到 82 % 的平衡准确率,比仅使用视觉提升 2.9 %,再加上领域知识额外提升 4.1 %。
- 跨站点泛化: 在五个完全未见站点上实现 66.9 % 的零样本性能,比传统基线提升 ≥ 18 pp。
- 少样本适应性: 仅添加五个验证示例即可将零样本准确率提升至 72.2 %,展示了快速即时定制的能力。
方法论
- 数据收集: 来自多个城市地点的行人视频和传感器日志,标注了“通过”/“不通过”的决策。
- 视觉特征提取: 将帧输入 LLaVA(视觉语言模型),生成捕捉街道布局、交通信号和周围物体的密集嵌入。
- 知识注入: 将精选的交通领域事实(例如,优先通行规则、典型跨越距离)编码为自然语言提示,并与视觉嵌入拼接。
- 模型微调: 使用 LoRA 对 LLaMA‑2‑7B 进行微调,将一小组可训练矩阵加入每个 Transformer 层,在保留原有知识的同时,使模型专注于跨路推断。
- 评估协议:
- 标准划分: 随机划分训练/验证/测试集,以衡量整体准确率。
- 跨地点划分: 将整个地点留作测试,模拟在新城市的部署情景。
- Zero‑shot 与 few‑shot: 首先在没有任何特定地点示例的情况下评估模型(zero‑shot),随后使用少量标注示例进行评估(few‑shot)。
结果与发现
| Setting | Balanced Accuracy |
|---|---|
| 完整数据集(随机划分) | 82.0 % |
| 仅视觉(无知识) | 79.1 % |
| 仅知识(无视觉) | 77.9 % |
| 零样本跨站点(5 个未见站点) | 66.9 % |
| 少样本(每站点 5 个示例) | 72.2 % |
- 视觉模块 通过编码建成环境(人行横道标记、车辆接近度等)提升了 2.9 %。
- 领域知识 再提升 4.1 %,表明显式交通规则能够补充原始视觉线索。
- 与最佳统计或监督基线相比,PedX‑LLM 在未见站点上将准确率提升了 ≥ 18 pp,验证了其卓越的泛化能力。
实际意义
- 智能交通基础设施: 全市范围的行人检测系统可以部署单一的 PedX‑LLM 实例,并在新建区域仍能获得可靠的过街预测,从而减少对特定地点数据收集的需求。
- 高级驾驶辅助系统 (ADAS) 与自动驾驶汽车: 将 PedX‑LLM 集成后,可实现更类似人类的行人意图推理,提升复杂城市场景中的安全裕度。
- 快速部署: 少样本能力意味着市政部门只需少量本地标注的短视频即可微调模型,将上线时间从数周缩短至数小时。
- 可扩展的安全分析: 研究人员和安全审计员可以对全市视频流进行批量推理,识别高风险的过街地点,而无需为每个地点重新训练模型。
局限性与未来工作
- 数据多样性: 本研究依赖于数量有限的城市环境;在农村或高度拥挤的特大城市场景中的表现仍未经过测试。
- 实时约束: 虽然 LoRA 降低了训练成本,但视觉‑语言流水线的推理延迟可能仍然过高,无法满足超低延迟的 ADAS 循环;需要进行模型压缩或面向边缘的优化变体。
- 知识库范围: 当前规则集仅覆盖基本的让路规则和交叉口几何形状;如果扩展到天气条件、行人人口统计或文化交叉习惯,可能进一步提升准确性。
- 可解释性: 虽然模型模仿人类推理,但为每个预测提供透明的理由(例如 “可见的交通信号灯为红色”)仍是安全认证的未解难题。
PedX‑LLM 展示了将视觉感知与结构化领域知识相结合,能够将通用 LLM 转变为用于安全关键任务的稳健、可泛化的推理引擎——这一方法可以在许多其他城市 AI 应用中复制。
作者
- Qingwen Pu
- Kun Xie
- Hong Yang
- Guocong Zhai
论文信息
- arXiv ID: 2601.00694v1
- 分类: cs.AI
- 出版时间: 2026年1月2日
- PDF: 下载 PDF