【论文】Req2Road:用于SDV测试制品生成和车载执行的GenAI流水线
发布: (2026年2月17日 GMT+8 22:03)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.15591v1
概述
论文 “Req2Road: A GenAI Pipeline for SDV Test Artifact Generation and On‑Vehicle Execution” 展示了一个原型系统,能够将自然语言的车辆需求转化为可在软件定义车辆(SDV)上运行的测试脚本。通过利用大语言模型(LLMs)和视觉‑语言模型(VLMs),作者实现了 Gherkin‑style 场景的自动生成,并将其映射到 Vehicle Signal Specification(VSS),从而在仿真环境和真实车辆上实现快速、可移植的测试。
关键贡献
- 端到端流水线,将异构需求工件(文本、表格、图表)转换为可执行的 Gherkin 场景和与 VSS 关联的测试代码。
- 检索增强生成(RAG) 用于预先选择相关的 VSS 信号,提高信号与需求映射的准确性。
- LLM 与 VLM 的集成,从需求文档中提取文本和视觉信息。
- 在安全关键子系统(儿童存在检测系统)上进行演示,涵盖虚拟(仿真)和真实车辆(车辆在环路)环境。
- 定量评估显示,89 % 的所检需求可以自动转化为可执行测试。
方法论
- 需求摄取 – 管道摄取自然语言需求、伴随的表格和设计图。
- 信号检索(RAG) – 查询 VSS 信号描述的向量库,以获取每个需求最相关的信号。
- LLM 驱动的场景生成 – 大语言模型(例如 GPT‑4)接收需求文本以及检索到的信号,生成 Gherkin 场景(Given‑When‑Then 格式)。
- VLM 辅助的图表解析 – 视觉语言模型分析图表,提取 LLM 可能遗漏的额外信号名称或状态机。
- VSS 映射与代码合成 – 将识别出的信号链接到 VSS 标识符,并由代码生成器输出兼容目标测试台(仿真器或车载测试框架)的测试脚本。
- 执行与反馈循环 – 生成的测试首先在虚拟环境中运行;失败时触发人工审查,纠正缺失或映射错误的信号,然后在实际车辆上重新执行测试。
结果与发现
- 覆盖率: 在 36 项儿童在场检测系统的安全需求中,有 32 项(≈ 89 %)成功转化为可执行的 Gherkin 场景。
- Gherkin 有效性: 超过 95 % 的生成场景通过了语法验证工具,无需人工编辑。
- VSS 映射质量: 与仅使用 LLM 的朴素方法相比,RAG 步骤将错误信号分配减少约 40 %。
- 端到端可执行性: 在仿真和 Vehicle‑in‑the‑Loop(ViL)运行中,生成的测试均未出现运行时错误,验证了流水线的实际可行性。
- 人工干预: 大约 10 % 的情况仍需手动信号替换或对模糊需求表述进行澄清。
Practical Implications
- Accelerated Test Development: Engineers can generate a baseline test suite directly from requirements, cutting weeks of manual test authoring.
- Cross‑Toolchain Consistency: By anchoring to the VSS standard, the same test artifacts can be reused across different subsystems, simulators, and on‑vehicle test rigs, reducing duplication.
- Safety‑Critical Assurance: Early, automated generation of tests for safety functions (e.g., child‑presence detection) helps meet automotive safety standards (ISO 26262) with less manual effort.
- Scalable to New Features: As SDVs evolve, the pipeline can ingest updated requirement documents and quickly produce corresponding test cases, supporting continuous integration pipelines for automotive software.
- Developer‑Friendly Artifacts: Gherkin scenarios are readable by both technical and non‑technical stakeholders, fostering better collaboration between software engineers, system architects, and safety analysts.
限制与未来工作
- 歧义处理: 当前系统仍然难以应对模糊或结构不良的需求,需要人工审查。
- 领域特定知识: 大语言模型可能会遗漏汽车领域的细微差别(例如时间约束),这些需要领域特定的微调。
- 可扩展性测试: 评估仅聚焦于单一子系统;需要在多个 SDV 模块上进行更广泛的研究,以确认其通用性。
- 工具链集成: 未来工作旨在将流水线直接接入汽车 CI/CD 平台(如 Jenkins、GitLab),并支持除 Gherkin 之外的其他测试框架。
- 可解释性: 为每个生成的测试提供可追溯到具体需求片段和信号来源的追踪,将提升安全认证的可审计性。
作者
- Denesa Zyberaj
- Lukasz Mazur
- Pascal Hirmer
- Nenad Petrovic
- Marco Aiello
- Alois Knoll
论文信息
- arXiv ID: 2602.15591v1
- 分类: cs.SE
- 出版时间: 2026年2月17日
- PDF: 下载 PDF