[Paper] 工作流层面的可信GenAI设计原则在汽车系统工程

发布: 3天前 (2026年2月23日 GMT+8 17:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.19614v1

概述

本文针对汽车工程师面临的紧迫难题——如何安全地将大型语言模型（LLM）——即支撑 ChatGPT 等工具的“GenAI”——嵌入到定义现代车辆开发的严格且安全关键的工作流中。作者通过提出一套 工作流层面的设计原则，展示了一个具体的端到端流水线，使 GenAI 的输出可追溯、可验证，并与现有汽车标准（SysML v2、回归测试等）保持一致。

关键贡献

Design principles for trustworthy GenAI 在工作流层面，而不仅仅是模型层面，面向安全关键系统工程。
Empirical comparison 对单体（“big‑bang”）提示与 section‑wise decomposition 策略进行的经验比较，后者结合多样性抽样和轻量级 NLP 健全性检查，显示出更高的完整性和正确性。
Automated propagation 将需求增量自动传播到 SysML v2 架构模型中，随后进行编译和静态分析以验证模型完整性。
Traceable regression‑test generation 将规范变量直接映射到架构端口和状态，实现 GenAI 驱动更新后的系统化重新测试。
A fully realized automotive case study 将需求变更检测、模型更新和测试生成串联为一个可重复的单一流水线。

方法论

Prompt Decomposition – 将规范拆分为逻辑章节（例如功能、安全、性能）。对每个章节单独提示，并采样多个多样化的响应。
Sanity‑Check Layer – 轻量级 NLP 启发式（关键词一致性、类型检查、单位校验）在输出到工程师之前自动标记不合理的结果。
Delta Extraction – 检测原始需求与修订需求之间的变化（“增量”），生成结构化的修改列表。
Model Update Engine – 使用增量列表，生成器更新 SysML v2 模型：添加/删除端口、调整状态机转换并同步文档。随后编译更新后的模型并通过静态分析工具运行，以提前捕获结构错误。
Traceable Test Synthesis – 每个需求变量都明确关联到模型元素（端口/状态）。系统自动生成回归测试用例来驱动这些元素，确保任何 GenAI 引发的更改都符合原始安全标准。

结果与发现

完整性提升: 按章节提示捕获的需求变更约比整体方法多 ≈ 22 %，在 500 页汽车规格基准中。
错误降低: 可靠性检查过滤器将 误报生成 减少了 ≈ 35 %，降低了人工审查工作量。
模型完整性: 更新后的 SysML v2 模型在 96 % 的运行中编译无错误，而使用天真“一次性”更新时仅为 78 %。
回归覆盖率: 生成的测试套件对变更的规范变量实现了 > 90 % 的覆盖，为每一次 GenAI 驱动的编辑提供了可量化的安全网。

这些数据表明，纪律严明的工作流可以使 GenAI 成为可靠的合著者，而非风险黑箱。

实际影响

Accelerated Change Management: 汽车原始设备制造商现在可以依赖生成式 AI，快速在复杂的模型层次结构中传播需求更新，将数周的手动重新建模缩短至数小时。
Regulatory Alignment: 通过在流水线中直接嵌入可追溯性（需求 ↔ 模型 ↔ 测试），公司可以满足 ISO‑26262 以及其他功能安全标准，而无需额外的文档工作负担。
Developer Tooling: 该方法可以打包为现有 SysML v2 工具链（例如 Cameo、Enterprise Architect）的插件，使工程师能够在熟悉的 IDE 中调用“智能差异辅助”命令。
Risk‑Based Deployment: 团队可以采用 progressive rollout——从低关键性子系统开始——同时，完整性检查层提供安全网，在建议进入生产代码之前标记任何超出规范的内容。
Cost Savings: 及早发现规格不匹配并自动生成测试，可降低 V‑模型后期的高成本返工，尤其是对必须进行安全验证的空中下载（OTA）更新而言。

限制与未来工作

领域特定性: 专注于汽车 SysML v2 模型；将工作流应用于其他领域（例如航空航天、医疗器械）可能需要自定义完整性检查规则和模型适配器。
对大语言模型的依赖: 结果取决于底层 LLM 的知识库；更新的或经过领域微调的模型可能会改变性能，需要持续重新评估。
多样性抽样的可扩展性: 为每个章节生成大量多样化响应会增加计算成本；未来工作将探索自适应抽样技术，以在成本与覆盖率之间取得平衡。
人机交互评估: 对工程师信任和接受度的正式用户研究仍在进行中。

作者建议将框架扩展以支持 持续集成流水线，集成对 GenAI 建议的实时监控，并将 形式化验证 生成的模型更新作为下一步工作。

作者

Chih-Hong Cheng
Brian Hsuan-Cheng Liao
Adam Molin
Hasan Esen

论文信息

arXiv ID: 2602.19614v1
分类: cs.SE, cs.LG
出版日期: 2026年2月23日
PDF: 下载 PDF

[Paper] 工作流层面的可信GenAI设计原则在汽车系统工程

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 代理模型用于岩石-流体相互作用：网格尺寸不变方法