[Paper] LLMs 驱动的实时故障注入:面向智能故障测试用例生成的方法

发布: (2025年11月24日 GMT+8 21:57)
7 min read
原文: arXiv

Source: arXiv - 2511.19132v1

概览

故障注入(FI)是验证汽车软件安全性的基石技术,但传统的 FI 工作流需要繁琐的人工工作来指定故障类型、位置和时机。论文 “LLMs‑Powered Real‑Time Fault Injection: An Approach Toward Intelligent Fault Test Cases Generation” 提出了一条新管线,利用大型语言模型(LLM)——具体为 GPT‑4o ——直接从功能安全需求(FSR)自动生成真实的故障测试用例。其结果是一种更快、更便宜且更具覆盖感知的方式来对安全关键的汽车系统进行压力测试。

主要贡献

  • LLM 驱动的测试用例合成: 引入一种系统方法,将文本化的 FSR 转化为故障注入测试用例,无需人工编写规格。
  • 模型比较与选择: 评估了多种最先进的 LLM(包括 GPT‑3.5、Claude、LLaMA),并证明 GPT‑4o 在分类和生成任务上始终优于其他模型。
  • 高精度指标: 实现了 88 % 的 F1 分数用于正确分类 FSR,97.5 % 的 F1 分数用于生成有效的故障测试用例。
  • 实时硬件在环(HIL)验证: 在高保真汽车模型上执行生成的测试用例,确认该方法在真实测试环境中实现端到端工作。
  • 成本降低论证: 量化了手工工程工作量和测试生成时间的减少,将该技术定位为现有 FI 工具的实用替代方案。

方法论

  1. 需求预处理: 从汽车开发工件中收集功能安全需求并进行规范化(分词、去除模板语言)。
  2. LLM 微调 / 提示设计: 精心设计一组提示,要求 LLM (a) 将需求分类到故障域(如传感器、执行器、通信),并 (b) 生成具体的故障注入测试用例(故障类型、注入点、时机、严重程度)。
  3. 模型选择循环: 作者将相同提示输入多个 LLM,依据手工整理的真实数据集比较输出,选出精度/召回率最佳的模型(GPT‑4o)。
  4. 测试用例验证: 将生成的测试用例送入实时 FI 框架,在运行高保真车辆动力学与控制模型的硬件在环设置中注入故障。
  5. 覆盖率分析: 使用标准覆盖准则(如需求覆盖、故障类型多样性)衡量生成的测试套件对原始 FSR 空间的覆盖程度。

该管线刻意保持模块化,任何具备相应 API 的 LLM 都可以替换,提示策略也可适配其他安全关键领域(如航空、医疗设备)。

结果与发现

指标数值解释
FSR 分类 F1‑score88 %LLM 能可靠识别每条需求的安全域。
故障测试用例生成 F1‑score97.5 %几乎所有生成的测试用例在语法上正确,并在语义上与源需求保持一致。
手工工作量减少约 70 % 的人时工程师在编写和审查测试用例上花费的时间大幅下降。
实时 HIL 执行成功率100 % 的生成用例在运行时未出现错误展示了与现有 FI 基础设施的端到端兼容性。
覆盖率提升相比基线手工套件提升 15 %LLM 生成的套件探索了人工工程师常常忽略的故障组合。

这些数据表明 GPT‑4o 可以作为安全工程师的高精度“助手”,将自然语言需求转化为可操作的测试工件,几乎无需人工监督。

实际意义

  • 加速安全验证流水线: 开发团队可以在一夜之间生成完整的故障注入套件,让工程师专注于分析而非编写测试。
  • 与汽车软件 CI/CD 集成: LLM 驱动的生成器可脚本化嵌入持续集成流程,需求变更时自动刷新故障套件。
  • 成本节约: 减少手工测试用例创建直接转化为更低的工程人工成本和更短的安全关键功能上市时间。
  • 可扩展至复杂系统: 随着车辆软件架构(如 ADAS、自动驾驶堆栈)规模扩大,该方法能够扩展,因为 LLM 能处理可能的故障位置的组合爆炸。
  • 跨领域适用性: 同一提示框架可复用于其他 ISO‑26262 类标准(如 IEC 61508)或非汽车安全关键领域。

局限性与未来工作

  • 依赖 LLM API 稳定性和授权: 该方法依赖商业 LLM(GPT‑4o)的访问;定价或 API 限制的变化可能影响采纳。
  • 提示工程开销: 虽然生成是自动的,但构建稳健提示仍需领域专业知识和迭代调优。
  • 语义正确性验证: 当前评估侧重于语法 F1‑score;更深入的语义验证(如确保注入的故障真正触发预期的安全机制)仍是未解挑战。
  • 对遗留代码库的泛化: 本研究使用高保真模型;将方法应用于异构、遗留的汽车 ECU 可能需要额外适配器。

未来研究方向包括:

  1. 构建领域特定的微调 LLM,以降低提示复杂度。
  2. 融入形式化验证,自动证明生成的故障满足覆盖准则。
  3. 将管线扩展至支持多模态输入(如 UML 图、Simulink 模型),以获得更丰富的需求表示。

作者

  • Mohammad Abboush
  • Ahmad Hatahet
  • Andreas Rausch

论文信息

  • arXiv ID: 2511.19132v1
  • 分类: cs.SE
  • 发布日期: 2025 年 11 月 24 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] Kubernetes 配置缺陷

Kubernetes 是一种帮助快速部署软件的工具。不幸的是,配置 Kubernetes 容易出错。配置缺陷并不少见。