[Paper] 基于LLM的场景生成流水线,使用扩展的 Scenic DSL 进行自动驾驶安全验证
发布: (2026年2月24日 GMT+8 15:44)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.20644v1
概览
一个新的研究流水线展示了如何将凌乱的真实世界碰撞报告——文本描述加手绘草图——转化为可完全执行的自动驾驶测试场景。通过将 GPT‑4o mini 与扩展版 Scenic 专用领域语言(DSL)相结合,作者实现了高层语义的自动提取以及可靠仿真输入的生成,显著减轻了自动驾驶系统(ADS)的验证工作负担。
关键贡献
- LLM‑增强解析 – 使用 GPT‑4o mini 解释多模态事故报告(文本 + 草图),并生成结构化、概率化的 Scenic 表示。
- 扩展的 Scenic DSL – 引入用于道路网络属性、交通规则“预言机”以及随机行为体轨迹的新构造,弥合自然语言意图与低层仿真器指令之间的差距。
- 两阶段流水线 – 将语义理解(LLM)与具体场景渲染(Scenic → CARLA)分离,相较于端到端文本到场景的方法降低了错误传播。
- 全面评估 – 在 NHTSA CIREN 事故案例上验证,达到了几乎完美的提取准确率(环境/网络 100 %,预言机和轨迹 >97 %)。
- 可扩展的压力测试 – 为每个场景生成 2,000 种变体;在 CARLA 中使用 Autoware 堆栈运行时,全部触发了预期的交通规则违规。
方法论
- Data Ingestion – 每份碰撞报告连同其配套草图一起输入 GPT‑4o mini。模型被提示识别关键实体(道路布局、天气、车辆状态),并以概率方式表达不确定性。
- Intermediate Representation – 提取的语义被编码到 Extended Scenic DSL 中。该 DSL 增加了:
- RoadNetwork 对象,包含车道标线、红绿灯位置以及合法的行驶操作。
- Oracle 谓词,用于捕捉安全违规(例如 “车辆跨入对向车道”)。
- Stochastic 行为体定义,模拟真实碰撞中可能出现的速度、航向和反应时间范围。
- Scenario Synthesis – Scenic 解释器将 DSL 脚本转换为 CARLA 仿真器的具体仿真资产(地图、车辆模型、传感器套件)。
- Execution & Verification – 生成的场景在开源的 Autoware 驾驶栈上运行。传感器数据输入 Autoware,后者尝试在场景中导航。运行结束后,验证器检查是否满足预定义的 oracle 条件。
- Variation Generation – 通过对 Scenic 脚本中的概率参数进行采样,自动生成数千个真实的变体,从而实现大规模安全测试。
结果与发现
| 方面 | 与人工真值的准确率 |
|---|---|
| 环境与道路网络属性 | 100 % |
| Oracle(规则违规)提取 | 97 % |
| 行为体轨迹提取 | 98 % |
在 CARLA 与 Autoware 中执行时,每个生成的变体都重现了目标违规(例如,逆向车道穿越、闯红灯)。该流水线被证明具有法律依据(DSL 捕获了事故报告中使用的相同监管语言)且可验证——中间的 Scenic 脚本可以在仿真前进行检查和审计。
实际意义
- Accelerated Safety Validation – 工程师可以导入现有的碰撞数据库,瞬间获得一套真实的测试案例库,省去数周的手动场景编写。
- Regulatory Alignment – 由于 DSL 反映了交通规则的法律描述,生成的场景可以直接在合规报告或安全案例中引用。
- Stress‑Testing at Scale – 概率性 DSL 使得系统化探索“如果”情形(不同天气、驾驶员反应时间)成为可能,无需手工制作每个案例。
- Toolchain Integration – 该流水线可以接入现有的仿真平台(CARLA、LGSVL)和开源自动驾驶栈(Autoware、Apollo),让开发者轻松采用。
- Reduced Human Error – 通过将嘈杂的文本到语义的翻译交给 LLM,并保留确定性的 Scenic 渲染步骤,该方法减轻了早期端到端生成器(如 ScenicNL 或 LCTGen)中常见的误解问题。
限制与未来工作
- LLM 幻觉 – 虽然在评估的 CIREN 数据集上准确率很高,但系统仍依赖 LLM 的可靠性;罕见的误提取可能会传播到不安全的测试场景中。
- 草图解释 – 当前流水线将草图视为辅助线索;更健壮的基于视觉的解析器可以捕获更细致的几何细节。
- 领域泛化 – 验证仅限于美国的事故报告;将其扩展到具有不同交通规则的其他司法辖区可能需要 DSL 的扩展。
- 闭环测试 – 本研究侧重于触发规则违规;未来工作可以加入能够实时响应 ADS 的自适应对抗行为体。
底线:通过将强大的 LLM 与概率式 Scenic DSL 结合,这项工作为开发者提供了一条将传统事故数据转化为高保真、可验证仿真场景的实用、可扩展路径——这是实现更安全、更可信的自动驾驶汽车的关键一步。
作者
- Fida Khandaker Safa
- Yupeng Jiang
- Xi Zheng
论文信息
- arXiv ID: 2602.20644v1
- 分类: cs.SE
- 发表时间: 2026年2月24日
- PDF: 下载 PDF