[Paper] 基于LLM的行为驱动开发用于硬件设计

发布: (2025年12月20日 GMT+8 01:19)
7 min read
原文: arXiv

Source: arXiv - 2512.17814v1

概述

芯片和复杂系统的设计验证是一个巨大的瓶颈——从高级规格编写精确的测试场景可能需要数周时间。本文探讨了一种针对硬件的行为驱动开发(BDD)的新颖变体:利用大语言模型(LLM)自动将文本需求转化为可执行的验证场景。通过弥合自然语言规格与正式测试平台之间的鸿沟,作者旨在使硬件验证更快、更少出错,并且让非验证专家的工程师也能更容易使用。

关键贡献

  • LLM‑driven scenario generation: 一个管道将硬件规格输入到 LLM(例如 GPT‑4),并接收符合 BDD 风格的 “Given‑When‑Then” 场景,准备好用于测试平台集成。
  • Domain‑specific prompting & fine‑tuning: 定制的提示词和轻量级微调步骤,使模型学习硬件描述语言(HDL)和验证框架(UVM、SystemVerilog)的语法。
  • Prototype toolchain: 一个端到端原型,将 LLM 输出链接到现有仿真环境,自动将场景转换为 SystemVerilog 断言和测试向量。
  • Empirical evaluation: 对三个开源硬件模块(FIFO、算术逻辑单元(ALU)以及一个简易 RISC‑V 核)进行案例研究,显示手动编写场景的时间最多降低 45 %,功能覆盖率提升 10–20 %
  • Human‑in‑the‑loop workflow: 一个轻量级 UI,允许验证工程师审查、编辑并批准生成的场景,确保流程在安全关键设计中保持安全。

方法论

  1. 规格收集 – 从现有硬件项目中收集自然语言需求文档(例如 “FIFO 必须永不溢出”)。
  2. 提示工程 – 设计提示,要求 LLM 以 Gherkin 风格语法输出 BDD 场景,并明确请求生成兼容 SystemVerilog 的断言。
  3. 微调 – 使用 200 条手写硬件 BDD 示例的小型数据集对基础 LLM 进行微调,以提升其对 HDL 术语的理解。
  4. 场景翻译 – 解析生成的 “Given‑When‑Then” 步骤,并自动映射到 SystemVerilog 构造(如 assert propertycovergroup)。
  5. 集成与仿真 – 将翻译后的测试平台代码片段注入 UVM 环境,并在标准仿真器(VCS/ModelSim)上运行。
  6. 指标收集 – 衡量编写工作量(人小时)、功能覆盖率(通过覆盖率报告)以及相较于基线手动 BDD 工作流的缺陷检测率。

结果与发现

指标手动 BDDLLM 增强 BDD
创建场景的平均时间(小时)0.80.44
功能覆盖率提升+12 %(FIFO),+18 %(ALU),+10 %(RISC‑V)
发现的缺陷(新)35
假阳性(无效场景)0生成场景的 2 %(已在审查中修复)

研究表明,LLM 能够可靠地生成语法正确的验证代码,但仍需进行简短的人为审查,以捕捉偶发的幻觉或歧义表述。总体而言,该工作流减少了重复性编写工作,并帮助经验较少的工程师参与验证工作。

实际影响

  • Speed up verification cycles – 团队可以在几分钟而非几小时内生成测试场景的初稿,加快“design‑verify‑iterate”循环。
  • Lower the entry barrier – 初级硬件工程师或以软件为主的开发者可以在不具备深厚 UVM 专业知识的情况下参与验证,促进跨学科协作。
  • Better documentation traceability – 由于场景直接来源于自然语言规格,需求、测试和覆盖率之间的关联变得明确,有助于合规审计(例如 ISO 26262)。
  • Plug‑and‑play with existing EDA flows – 原型输出标准 SystemVerilog/UVM 代码,意味着可以直接嵌入任何现有的仿真或形式验证流水线,而无需重大工具更改。
  • Potential for AI‑assisted regression management – 同一 LLM 流程可以扩展为在规格演变时自动更新场景,降低回归测试维护的工作量。

限制与未来工作

  • 幻觉风险 – 大语言模型偶尔会捏造规格中不存在的信号或约束;稳健的验证工作流必须保留人工审查检查点。
  • 领域覆盖 – 微调数据集规模小且仅聚焦于少数经典模块;将其扩展到拥有专有 IP 的大型 SoC 可能需要更广泛的领域数据。
  • 形式方法性能 – 当前工作面向基于仿真的验证;与形式属性生成的集成仍是未解决的挑战。
  • 工具链集成 – 虽然原型可在开源仿真器上运行,但要实现行业采用仍需与商业 EDA 套件(Synopsys、Cadence)进行更紧密的集成。
  • 未来方向 包括 (1) 构建持续学习循环,将已验证的场景反馈给大语言模型,(2) 扩展到多语言规格(如 UML、SysML),以及 (3) 探索零样本提示,以彻底省去微调步骤。

作者

  • Rolf Drechsler
  • Qian Liu

论文信息

  • arXiv ID: 2512.17814v1
  • 分类: cs.SE, cs.AI, cs.AR
  • 出版日期: 2025年12月19日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »