[Paper] 基于LLM的行为驱动开发用于硬件设计

发布: 1个月前 (2025年12月20日 GMT+8 01:19)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.17814v1

概述

芯片和复杂系统的设计验证是一个巨大的瓶颈——从高级规格编写精确的测试场景可能需要数周时间。本文探讨了一种针对硬件的行为驱动开发（BDD）的新颖变体：利用大语言模型（LLM）自动将文本需求转化为可执行的验证场景。通过弥合自然语言规格与正式测试平台之间的鸿沟，作者旨在使硬件验证更快、更少出错，并且让非验证专家的工程师也能更容易使用。

关键贡献

LLM‑driven scenario generation: 一个管道将硬件规格输入到 LLM（例如 GPT‑4），并接收符合 BDD 风格的 “Given‑When‑Then” 场景，准备好用于测试平台集成。
Domain‑specific prompting & fine‑tuning: 定制的提示词和轻量级微调步骤，使模型学习硬件描述语言（HDL）和验证框架（UVM、SystemVerilog）的语法。
Prototype toolchain: 一个端到端原型，将 LLM 输出链接到现有仿真环境，自动将场景转换为 SystemVerilog 断言和测试向量。
Empirical evaluation: 对三个开源硬件模块（FIFO、算术逻辑单元（ALU）以及一个简易 RISC‑V 核）进行案例研究，显示手动编写场景的时间最多降低 45 %，功能覆盖率提升 10–20 %。
Human‑in‑the‑loop workflow: 一个轻量级 UI，允许验证工程师审查、编辑并批准生成的场景，确保流程在安全关键设计中保持安全。

方法论

规格收集 – 从现有硬件项目中收集自然语言需求文档（例如 “FIFO 必须永不溢出”）。
提示工程 – 设计提示，要求 LLM 以 Gherkin 风格语法输出 BDD 场景，并明确请求生成兼容 SystemVerilog 的断言。
微调 – 使用 200 条手写硬件 BDD 示例的小型数据集对基础 LLM 进行微调，以提升其对 HDL 术语的理解。
场景翻译 – 解析生成的 “Given‑When‑Then” 步骤，并自动映射到 SystemVerilog 构造（如 assert property、covergroup）。
集成与仿真 – 将翻译后的测试平台代码片段注入 UVM 环境，并在标准仿真器（VCS/ModelSim）上运行。
指标收集 – 衡量编写工作量（人小时）、功能覆盖率（通过覆盖率报告）以及相较于基线手动 BDD 工作流的缺陷检测率。

结果与发现

指标	手动 BDD	LLM 增强 BDD
创建场景的平均时间（小时）	0.8	0.44
功能覆盖率提升	–	+12 %（FIFO），+18 %（ALU），+10 %（RISC‑V）
发现的缺陷（新）	3	5
假阳性（无效场景）	0	生成场景的 2 %（已在审查中修复）

研究表明，LLM 能够可靠地生成语法正确的验证代码，但仍需进行简短的人为审查，以捕捉偶发的幻觉或歧义表述。总体而言，该工作流减少了重复性编写工作，并帮助经验较少的工程师参与验证工作。

实际影响

Speed up verification cycles – 团队可以在几分钟而非几小时内生成测试场景的初稿，加快“design‑verify‑iterate”循环。
Lower the entry barrier – 初级硬件工程师或以软件为主的开发者可以在不具备深厚 UVM 专业知识的情况下参与验证，促进跨学科协作。
Better documentation traceability – 由于场景直接来源于自然语言规格，需求、测试和覆盖率之间的关联变得明确，有助于合规审计（例如 ISO 26262）。
Plug‑and‑play with existing EDA flows – 原型输出标准 SystemVerilog/UVM 代码，意味着可以直接嵌入任何现有的仿真或形式验证流水线，而无需重大工具更改。
Potential for AI‑assisted regression management – 同一 LLM 流程可以扩展为在规格演变时自动更新场景，降低回归测试维护的工作量。

限制与未来工作

幻觉风险 – 大语言模型偶尔会捏造规格中不存在的信号或约束；稳健的验证工作流必须保留人工审查检查点。
领域覆盖 – 微调数据集规模小且仅聚焦于少数经典模块；将其扩展到拥有专有 IP 的大型 SoC 可能需要更广泛的领域数据。
形式方法性能 – 当前工作面向基于仿真的验证；与形式属性生成的集成仍是未解决的挑战。
工具链集成 – 虽然原型可在开源仿真器上运行，但要实现行业采用仍需与商业 EDA 套件（Synopsys、Cadence）进行更紧密的集成。
未来方向 包括 (1) 构建持续学习循环，将已验证的场景反馈给大语言模型，(2) 扩展到多语言规格（如 UML、SysML），以及 (3) 探索零样本提示，以彻底省去微调步骤。

作者

Rolf Drechsler
Qian Liu

论文信息

arXiv ID: 2512.17814v1
分类: cs.SE, cs.AI, cs.AR
出版日期: 2025年12月19日
PDF: Download PDF

[Paper] 基于LLM的行为驱动开发用于硬件设计

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构