【论文】Req2Road：用于SDV测试制品生成和车载执行的GenAI流水线

发布: 3天前 (2026年2月17日 GMT+8 22:03)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.15591v1

概述

论文 “Req2Road: A GenAI Pipeline for SDV Test Artifact Generation and On‑Vehicle Execution” 展示了一个原型系统，能够将自然语言的车辆需求转化为可在软件定义车辆（SDV）上运行的测试脚本。通过利用大语言模型（LLMs）和视觉‑语言模型（VLMs），作者实现了 Gherkin‑style 场景的自动生成，并将其映射到 Vehicle Signal Specification（VSS），从而在仿真环境和真实车辆上实现快速、可移植的测试。

关键贡献

端到端流水线，将异构需求工件（文本、表格、图表）转换为可执行的 Gherkin 场景和与 VSS 关联的测试代码。
检索增强生成（RAG） 用于预先选择相关的 VSS 信号，提高信号与需求映射的准确性。
LLM 与 VLM 的集成，从需求文档中提取文本和视觉信息。
在安全关键子系统（儿童存在检测系统）上进行演示，涵盖虚拟（仿真）和真实车辆（车辆在环路）环境。
定量评估显示，89 % 的所检需求可以自动转化为可执行测试。

方法论

需求摄取 – 管道摄取自然语言需求、伴随的表格和设计图。
信号检索（RAG） – 查询 VSS 信号描述的向量库，以获取每个需求最相关的信号。
LLM 驱动的场景生成 – 大语言模型（例如 GPT‑4）接收需求文本以及检索到的信号，生成 Gherkin 场景（Given‑When‑Then 格式）。
VLM 辅助的图表解析 – 视觉语言模型分析图表，提取 LLM 可能遗漏的额外信号名称或状态机。
VSS 映射与代码合成 – 将识别出的信号链接到 VSS 标识符，并由代码生成器输出兼容目标测试台（仿真器或车载测试框架）的测试脚本。
执行与反馈循环 – 生成的测试首先在虚拟环境中运行；失败时触发人工审查，纠正缺失或映射错误的信号，然后在实际车辆上重新执行测试。

结果与发现

覆盖率： 在 36 项儿童在场检测系统的安全需求中，有 32 项（≈ 89 %）成功转化为可执行的 Gherkin 场景。
Gherkin 有效性： 超过 95 % 的生成场景通过了语法验证工具，无需人工编辑。
VSS 映射质量： 与仅使用 LLM 的朴素方法相比，RAG 步骤将错误信号分配减少约 40 %。
端到端可执行性： 在仿真和 Vehicle‑in‑the‑Loop（ViL）运行中，生成的测试均未出现运行时错误，验证了流水线的实际可行性。
人工干预： 大约 10 % 的情况仍需手动信号替换或对模糊需求表述进行澄清。

Practical Implications

Accelerated Test Development: Engineers can generate a baseline test suite directly from requirements, cutting weeks of manual test authoring.
Cross‑Toolchain Consistency: By anchoring to the VSS standard, the same test artifacts can be reused across different subsystems, simulators, and on‑vehicle test rigs, reducing duplication.
Safety‑Critical Assurance: Early, automated generation of tests for safety functions (e.g., child‑presence detection) helps meet automotive safety standards (ISO 26262) with less manual effort.
Scalable to New Features: As SDVs evolve, the pipeline can ingest updated requirement documents and quickly produce corresponding test cases, supporting continuous integration pipelines for automotive software.
Developer‑Friendly Artifacts: Gherkin scenarios are readable by both technical and non‑technical stakeholders, fostering better collaboration between software engineers, system architects, and safety analysts.

限制与未来工作

歧义处理： 当前系统仍然难以应对模糊或结构不良的需求，需要人工审查。
领域特定知识： 大语言模型可能会遗漏汽车领域的细微差别（例如时间约束），这些需要领域特定的微调。
可扩展性测试： 评估仅聚焦于单一子系统；需要在多个 SDV 模块上进行更广泛的研究，以确认其通用性。
工具链集成： 未来工作旨在将流水线直接接入汽车 CI/CD 平台（如 Jenkins、GitLab），并支持除 Gherkin 之外的其他测试框架。
可解释性： 为每个生成的测试提供可追溯到具体需求片段和信号来源的追踪，将提升安全认证的可审计性。

作者

Denesa Zyberaj
Lukasz Mazur
Pascal Hirmer
Nenad Petrovic
Marco Aiello
Alois Knoll

论文信息

arXiv ID: 2602.15591v1
分类: cs.SE
出版时间: 2026年2月17日
PDF: 下载 PDF

【论文】Req2Road：用于SDV测试制品生成和车载执行的GenAI流水线

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] huff：用于市场区域分析的 Python 包

[Paper] 什么因素决定了用于真实世界渗透测试的优秀 LLM Agent？

[Paper] 面向需求工程中自然语言处理工具的软件参考架构

自适应系统中伦理的运行时维度