[Paper] 基于LLM的行为驱动开发用于硬件设计
发布: (2025年12月20日 GMT+8 01:19)
7 min read
原文: arXiv
Source: arXiv - 2512.17814v1
概述
芯片和复杂系统的设计验证是一个巨大的瓶颈——从高级规格编写精确的测试场景可能需要数周时间。本文探讨了一种针对硬件的行为驱动开发(BDD)的新颖变体:利用大语言模型(LLM)自动将文本需求转化为可执行的验证场景。通过弥合自然语言规格与正式测试平台之间的鸿沟,作者旨在使硬件验证更快、更少出错,并且让非验证专家的工程师也能更容易使用。
关键贡献
- LLM‑driven scenario generation: 一个管道将硬件规格输入到 LLM(例如 GPT‑4),并接收符合 BDD 风格的 “Given‑When‑Then” 场景,准备好用于测试平台集成。
- Domain‑specific prompting & fine‑tuning: 定制的提示词和轻量级微调步骤,使模型学习硬件描述语言(HDL)和验证框架(UVM、SystemVerilog)的语法。
- Prototype toolchain: 一个端到端原型,将 LLM 输出链接到现有仿真环境,自动将场景转换为 SystemVerilog 断言和测试向量。
- Empirical evaluation: 对三个开源硬件模块(FIFO、算术逻辑单元(ALU)以及一个简易 RISC‑V 核)进行案例研究,显示手动编写场景的时间最多降低 45 %,功能覆盖率提升 10–20 %。
- Human‑in‑the‑loop workflow: 一个轻量级 UI,允许验证工程师审查、编辑并批准生成的场景,确保流程在安全关键设计中保持安全。
方法论
- 规格收集 – 从现有硬件项目中收集自然语言需求文档(例如 “FIFO 必须永不溢出”)。
- 提示工程 – 设计提示,要求 LLM 以 Gherkin 风格语法输出 BDD 场景,并明确请求生成兼容 SystemVerilog 的断言。
- 微调 – 使用 200 条手写硬件 BDD 示例的小型数据集对基础 LLM 进行微调,以提升其对 HDL 术语的理解。
- 场景翻译 – 解析生成的 “Given‑When‑Then” 步骤,并自动映射到 SystemVerilog 构造(如
assert property、covergroup)。 - 集成与仿真 – 将翻译后的测试平台代码片段注入 UVM 环境,并在标准仿真器(VCS/ModelSim)上运行。
- 指标收集 – 衡量编写工作量(人小时)、功能覆盖率(通过覆盖率报告)以及相较于基线手动 BDD 工作流的缺陷检测率。
结果与发现
| 指标 | 手动 BDD | LLM 增强 BDD |
|---|---|---|
| 创建场景的平均时间(小时) | 0.8 | 0.44 |
| 功能覆盖率提升 | – | +12 %(FIFO),+18 %(ALU),+10 %(RISC‑V) |
| 发现的缺陷(新) | 3 | 5 |
| 假阳性(无效场景) | 0 | 生成场景的 2 %(已在审查中修复) |
研究表明,LLM 能够可靠地生成语法正确的验证代码,但仍需进行简短的人为审查,以捕捉偶发的幻觉或歧义表述。总体而言,该工作流减少了重复性编写工作,并帮助经验较少的工程师参与验证工作。
实际影响
- Speed up verification cycles – 团队可以在几分钟而非几小时内生成测试场景的初稿,加快“design‑verify‑iterate”循环。
- Lower the entry barrier – 初级硬件工程师或以软件为主的开发者可以在不具备深厚 UVM 专业知识的情况下参与验证,促进跨学科协作。
- Better documentation traceability – 由于场景直接来源于自然语言规格,需求、测试和覆盖率之间的关联变得明确,有助于合规审计(例如 ISO 26262)。
- Plug‑and‑play with existing EDA flows – 原型输出标准 SystemVerilog/UVM 代码,意味着可以直接嵌入任何现有的仿真或形式验证流水线,而无需重大工具更改。
- Potential for AI‑assisted regression management – 同一 LLM 流程可以扩展为在规格演变时自动更新场景,降低回归测试维护的工作量。
限制与未来工作
- 幻觉风险 – 大语言模型偶尔会捏造规格中不存在的信号或约束;稳健的验证工作流必须保留人工审查检查点。
- 领域覆盖 – 微调数据集规模小且仅聚焦于少数经典模块;将其扩展到拥有专有 IP 的大型 SoC 可能需要更广泛的领域数据。
- 形式方法性能 – 当前工作面向基于仿真的验证;与形式属性生成的集成仍是未解决的挑战。
- 工具链集成 – 虽然原型可在开源仿真器上运行,但要实现行业采用仍需与商业 EDA 套件(Synopsys、Cadence)进行更紧密的集成。
- 未来方向 包括 (1) 构建持续学习循环,将已验证的场景反馈给大语言模型,(2) 扩展到多语言规格(如 UML、SysML),以及 (3) 探索零样本提示,以彻底省去微调步骤。
作者
- Rolf Drechsler
- Qian Liu
论文信息
- arXiv ID: 2512.17814v1
- 分类: cs.SE, cs.AI, cs.AR
- 出版日期: 2025年12月19日
- PDF: Download PDF