【论文】Req2Road:用于SDV测试制品生成和车载执行的GenAI流水线

发布: (2026年2月17日 GMT+8 22:03)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.15591v1

概述

论文 “Req2Road: A GenAI Pipeline for SDV Test Artifact Generation and On‑Vehicle Execution” 展示了一个原型系统,能够将自然语言的车辆需求转化为可在软件定义车辆(SDV)上运行的测试脚本。通过利用大语言模型(LLMs)和视觉‑语言模型(VLMs),作者实现了 Gherkin‑style 场景的自动生成,并将其映射到 Vehicle Signal Specification(VSS),从而在仿真环境和真实车辆上实现快速、可移植的测试。

关键贡献

  • 端到端流水线,将异构需求工件(文本、表格、图表)转换为可执行的 Gherkin 场景和与 VSS 关联的测试代码。
  • 检索增强生成(RAG) 用于预先选择相关的 VSS 信号,提高信号与需求映射的准确性。
  • LLM 与 VLM 的集成,从需求文档中提取文本和视觉信息。
  • 在安全关键子系统(儿童存在检测系统)上进行演示,涵盖虚拟(仿真)和真实车辆(车辆在环路)环境。
  • 定量评估显示,89 % 的所检需求可以自动转化为可执行测试。

方法论

  1. 需求摄取 – 管道摄取自然语言需求、伴随的表格和设计图。
  2. 信号检索(RAG) – 查询 VSS 信号描述的向量库,以获取每个需求最相关的信号。
  3. LLM 驱动的场景生成 – 大语言模型(例如 GPT‑4)接收需求文本以及检索到的信号,生成 Gherkin 场景(Given‑When‑Then 格式)。
  4. VLM 辅助的图表解析 – 视觉语言模型分析图表,提取 LLM 可能遗漏的额外信号名称或状态机。
  5. VSS 映射与代码合成 – 将识别出的信号链接到 VSS 标识符,并由代码生成器输出兼容目标测试台(仿真器或车载测试框架)的测试脚本。
  6. 执行与反馈循环 – 生成的测试首先在虚拟环境中运行;失败时触发人工审查,纠正缺失或映射错误的信号,然后在实际车辆上重新执行测试。

结果与发现

  • 覆盖率: 在 36 项儿童在场检测系统的安全需求中,有 32 项(≈ 89 %)成功转化为可执行的 Gherkin 场景。
  • Gherkin 有效性: 超过 95 % 的生成场景通过了语法验证工具,无需人工编辑。
  • VSS 映射质量: 与仅使用 LLM 的朴素方法相比,RAG 步骤将错误信号分配减少约 40 %。
  • 端到端可执行性: 在仿真和 Vehicle‑in‑the‑Loop(ViL)运行中,生成的测试均未出现运行时错误,验证了流水线的实际可行性。
  • 人工干预: 大约 10 % 的情况仍需手动信号替换或对模糊需求表述进行澄清。

Practical Implications

  • Accelerated Test Development: Engineers can generate a baseline test suite directly from requirements, cutting weeks of manual test authoring.
  • Cross‑Toolchain Consistency: By anchoring to the VSS standard, the same test artifacts can be reused across different subsystems, simulators, and on‑vehicle test rigs, reducing duplication.
  • Safety‑Critical Assurance: Early, automated generation of tests for safety functions (e.g., child‑presence detection) helps meet automotive safety standards (ISO 26262) with less manual effort.
  • Scalable to New Features: As SDVs evolve, the pipeline can ingest updated requirement documents and quickly produce corresponding test cases, supporting continuous integration pipelines for automotive software.
  • Developer‑Friendly Artifacts: Gherkin scenarios are readable by both technical and non‑technical stakeholders, fostering better collaboration between software engineers, system architects, and safety analysts.

限制与未来工作

  • 歧义处理: 当前系统仍然难以应对模糊或结构不良的需求,需要人工审查。
  • 领域特定知识: 大语言模型可能会遗漏汽车领域的细微差别(例如时间约束),这些需要领域特定的微调。
  • 可扩展性测试: 评估仅聚焦于单一子系统;需要在多个 SDV 模块上进行更广泛的研究,以确认其通用性。
  • 工具链集成: 未来工作旨在将流水线直接接入汽车 CI/CD 平台(如 Jenkins、GitLab),并支持除 Gherkin 之外的其他测试框架。
  • 可解释性: 为每个生成的测试提供可追溯到具体需求片段和信号来源的追踪,将提升安全认证的可审计性。

作者

  • Denesa Zyberaj
  • Lukasz Mazur
  • Pascal Hirmer
  • Nenad Petrovic
  • Marco Aiello
  • Alois Knoll

论文信息

  • arXiv ID: 2602.15591v1
  • 分类: cs.SE
  • 出版时间: 2026年2月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »