[Paper] 基于LLM的场景生成流水线，使用扩展的 Scenic DSL 进行自动驾驶安全验证

发布: 3天前 (2026年2月24日 GMT+8 15:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.20644v1

概览

一个新的研究流水线展示了如何将凌乱的真实世界碰撞报告——文本描述加手绘草图——转化为可完全执行的自动驾驶测试场景。通过将 GPT‑4o mini 与扩展版 Scenic 专用领域语言（DSL）相结合，作者实现了高层语义的自动提取以及可靠仿真输入的生成，显著减轻了自动驾驶系统（ADS）的验证工作负担。

关键贡献

LLM‑增强解析 – 使用 GPT‑4o mini 解释多模态事故报告（文本 + 草图），并生成结构化、概率化的 Scenic 表示。
扩展的 Scenic DSL – 引入用于道路网络属性、交通规则“预言机”以及随机行为体轨迹的新构造，弥合自然语言意图与低层仿真器指令之间的差距。
两阶段流水线 – 将语义理解（LLM）与具体场景渲染（Scenic → CARLA）分离，相较于端到端文本到场景的方法降低了错误传播。
全面评估 – 在 NHTSA CIREN 事故案例上验证，达到了几乎完美的提取准确率（环境/网络 100 %，预言机和轨迹 >97 %）。
可扩展的压力测试 – 为每个场景生成 2,000 种变体；在 CARLA 中使用 Autoware 堆栈运行时，全部触发了预期的交通规则违规。

方法论

Data Ingestion – 每份碰撞报告连同其配套草图一起输入 GPT‑4o mini。模型被提示识别关键实体（道路布局、天气、车辆状态），并以概率方式表达不确定性。
Intermediate Representation – 提取的语义被编码到 Extended Scenic DSL 中。该 DSL 增加了：
- RoadNetwork 对象，包含车道标线、红绿灯位置以及合法的行驶操作。
- Oracle 谓词，用于捕捉安全违规（例如 “车辆跨入对向车道”）。
- Stochastic 行为体定义，模拟真实碰撞中可能出现的速度、航向和反应时间范围。
Scenario Synthesis – Scenic 解释器将 DSL 脚本转换为 CARLA 仿真器的具体仿真资产（地图、车辆模型、传感器套件）。
Execution & Verification – 生成的场景在开源的 Autoware 驾驶栈上运行。传感器数据输入 Autoware，后者尝试在场景中导航。运行结束后，验证器检查是否满足预定义的 oracle 条件。
Variation Generation – 通过对 Scenic 脚本中的概率参数进行采样，自动生成数千个真实的变体，从而实现大规模安全测试。

结果与发现

方面	与人工真值的准确率
环境与道路网络属性	100 %
Oracle（规则违规）提取	97 %
行为体轨迹提取	98 %

在 CARLA 与 Autoware 中执行时，每个生成的变体都重现了目标违规（例如，逆向车道穿越、闯红灯）。该流水线被证明具有法律依据（DSL 捕获了事故报告中使用的相同监管语言）且可验证——中间的 Scenic 脚本可以在仿真前进行检查和审计。

实际意义

Accelerated Safety Validation – 工程师可以导入现有的碰撞数据库，瞬间获得一套真实的测试案例库，省去数周的手动场景编写。
Regulatory Alignment – 由于 DSL 反映了交通规则的法律描述，生成的场景可以直接在合规报告或安全案例中引用。
Stress‑Testing at Scale – 概率性 DSL 使得系统化探索“如果”情形（不同天气、驾驶员反应时间）成为可能，无需手工制作每个案例。
Toolchain Integration – 该流水线可以接入现有的仿真平台（CARLA、LGSVL）和开源自动驾驶栈（Autoware、Apollo），让开发者轻松采用。
Reduced Human Error – 通过将嘈杂的文本到语义的翻译交给 LLM，并保留确定性的 Scenic 渲染步骤，该方法减轻了早期端到端生成器（如 ScenicNL 或 LCTGen）中常见的误解问题。

限制与未来工作

LLM 幻觉 – 虽然在评估的 CIREN 数据集上准确率很高，但系统仍依赖 LLM 的可靠性；罕见的误提取可能会传播到不安全的测试场景中。
草图解释 – 当前流水线将草图视为辅助线索；更健壮的基于视觉的解析器可以捕获更细致的几何细节。
领域泛化 – 验证仅限于美国的事故报告；将其扩展到具有不同交通规则的其他司法辖区可能需要 DSL 的扩展。
闭环测试 – 本研究侧重于触发规则违规；未来工作可以加入能够实时响应 ADS 的自适应对抗行为体。

底线：通过将强大的 LLM 与概率式 Scenic DSL 结合，这项工作为开发者提供了一条将传统事故数据转化为高保真、可验证仿真场景的实用、可扩展路径——这是实现更安全、更可信的自动驾驶汽车的关键一步。

作者

Fida Khandaker Safa
Yupeng Jiang
Xi Zheng

论文信息

arXiv ID: 2602.20644v1
分类: cs.SE
发表时间: 2026年2月24日
PDF: 下载 PDF

[Paper] 基于LLM的场景生成流水线，使用扩展的 Scenic DSL 进行自动驾驶安全验证

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于LLM的深度学习库静默漏洞模糊测试：通过多样化且受控的漏洞转移

[Paper] 管理基于 LLM 的多智能体系统运行中的不确定性

[Paper] 混合敏捷团队的生产力与协作：访谈研究

[Paper] RandSet：用于 Fuzzing 种子调度的随机语料库缩减