[Paper] 工作流层面的可信GenAI设计原则在汽车系统工程

发布: (2026年2月23日 GMT+8 17:02)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.19614v1

概述

本文针对汽车工程师面临的紧迫难题——如何安全地将大型语言模型(LLM)——即支撑 ChatGPT 等工具的“GenAI”——嵌入到定义现代车辆开发的严格且安全关键的工作流中。作者通过提出一套 工作流层面的设计原则,展示了一个具体的端到端流水线,使 GenAI 的输出可追溯、可验证,并与现有汽车标准(SysML v2、回归测试等)保持一致。

关键贡献

  • Design principles for trustworthy GenAI 在工作流层面,而不仅仅是模型层面,面向安全关键系统工程。
  • Empirical comparison 对单体(“big‑bang”)提示与 section‑wise decomposition 策略进行的经验比较,后者结合多样性抽样和轻量级 NLP 健全性检查,显示出更高的完整性和正确性。
  • Automated propagation 将需求增量自动传播到 SysML v2 架构模型中,随后进行编译和静态分析以验证模型完整性。
  • Traceable regression‑test generation 将规范变量直接映射到架构端口和状态,实现 GenAI 驱动更新后的系统化重新测试。
  • A fully realized automotive case study 将需求变更检测、模型更新和测试生成串联为一个可重复的单一流水线。

方法论

  1. Prompt Decomposition – 将规范拆分为逻辑章节(例如功能、安全、性能)。对每个章节单独提示,并采样多个多样化的响应。
  2. Sanity‑Check Layer – 轻量级 NLP 启发式(关键词一致性、类型检查、单位校验)在输出到工程师之前自动标记不合理的结果。
  3. Delta Extraction – 检测原始需求与修订需求之间的变化(“增量”),生成结构化的修改列表。
  4. Model Update Engine – 使用增量列表,生成器更新 SysML v2 模型:添加/删除端口、调整状态机转换并同步文档。随后编译更新后的模型并通过静态分析工具运行,以提前捕获结构错误。
  5. Traceable Test Synthesis – 每个需求变量都明确关联到模型元素(端口/状态)。系统自动生成回归测试用例来驱动这些元素,确保任何 GenAI 引发的更改都符合原始安全标准。

结果与发现

  • 完整性提升: 按章节提示捕获的需求变更约比整体方法多 ≈ 22 %,在 500 页汽车规格基准中。
  • 错误降低: 可靠性检查过滤器将 误报生成 减少了 ≈ 35 %,降低了人工审查工作量。
  • 模型完整性: 更新后的 SysML v2 模型在 96 % 的运行中编译无错误,而使用天真“一次性”更新时仅为 78 %
  • 回归覆盖率: 生成的测试套件对变更的规范变量实现了 > 90 % 的覆盖,为每一次 GenAI 驱动的编辑提供了可量化的安全网。

这些数据表明,纪律严明的工作流可以使 GenAI 成为可靠的合著者,而非风险黑箱。

实际影响

  • Accelerated Change Management: 汽车原始设备制造商现在可以依赖生成式 AI,快速在复杂的模型层次结构中传播需求更新,将数周的手动重新建模缩短至数小时。
  • Regulatory Alignment: 通过在流水线中直接嵌入可追溯性(需求 ↔ 模型 ↔ 测试),公司可以满足 ISO‑26262 以及其他功能安全标准,而无需额外的文档工作负担。
  • Developer Tooling: 该方法可以打包为现有 SysML v2 工具链(例如 Cameo、Enterprise Architect)的插件,使工程师能够在熟悉的 IDE 中调用“智能差异辅助”命令。
  • Risk‑Based Deployment: 团队可以采用 progressive rollout——从低关键性子系统开始——同时,完整性检查层提供安全网,在建议进入生产代码之前标记任何超出规范的内容。
  • Cost Savings: 及早发现规格不匹配并自动生成测试,可降低 V‑模型后期的高成本返工,尤其是对必须进行安全验证的空中下载(OTA)更新而言。

限制与未来工作

  • 领域特定性: 专注于汽车 SysML v2 模型;将工作流应用于其他领域(例如航空航天、医疗器械)可能需要自定义完整性检查规则和模型适配器。
  • 对大语言模型的依赖: 结果取决于底层 LLM 的知识库;更新的或经过领域微调的模型可能会改变性能,需要持续重新评估。
  • 多样性抽样的可扩展性: 为每个章节生成大量多样化响应会增加计算成本;未来工作将探索自适应抽样技术,以在成本与覆盖率之间取得平衡。
  • 人机交互评估: 对工程师信任和接受度的正式用户研究仍在进行中。

作者建议将框架扩展以支持 持续集成流水线,集成对 GenAI 建议的实时监控,并将 形式化验证 生成的模型更新作为下一步工作。

作者

  • Chih-Hong Cheng
  • Brian Hsuan-Cheng Liao
  • Adam Molin
  • Hasan Esen

论文信息

  • arXiv ID: 2602.19614v1
  • 分类: cs.SE, cs.LG
  • 出版日期: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »