[Paper] 大语言模型用于单元测试生成：成就、挑战与前路

发布: 2个月前 (2025年11月26日 GMT+8 21:30)

3 分钟阅读

原文: arXiv

Source: arXiv - 2511.21382v1

概览

单元测试是一种必不可少但工作量大的技术，用于验证软件并降低回归风险。虽然经典的自动化方法能够有效探索程序结构，但它们往往缺乏生成真实输入和断言所需的语义信息。大语言模型（LLMs）通过利用其对代码语义和编程模式的基于数据的知识，弥补了这一不足。

为了分析该领域的最新进展，我们对2021 年 5 月至 2025 年 8 月期间发表的 115 篇文献进行了系统性文献综述。我们基于单元测试生成生命周期提出了一个统一的分类法，将 LLM 视为需要系统化工程约束的随机生成器。该框架从核心生成策略以及一系列增强技术（从生成前的上下文丰富到生成后的质量保证）对文献进行分析。

我们的分析显示，提示工程已成为最主要的利用策略，占 89 % 的研究，这归功于其灵活性。迭代验证与修复循环已成为确保稳健可用性的标准机制，显著提升了编译和执行通过率。然而，生成测试的故障检测能力薄弱以及缺乏标准化评估基准等关键挑战仍然存在。

我们在结论中提出了未来研究路线图，强调向自主测试代理以及将 LLM 与传统软件工程工具相结合的混合系统发展。本综述为研究人员和实践者提供了将 LLM 潜力转化为工业级测试解决方案的全面视角。

作者

Chu Bei
Feng Yang
Liu Kui
Nan Zifan
Guo Zhaoqiang
Xu Baowen

类别

cs.SE

论文信息

arXiv ID: 2511.21382v1
类别: cs.SE
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] 大语言模型用于单元测试生成：成就、挑战与前路

概览

作者

类别

论文信息

相关文章

[Paper] SV-LIB 1.0：用于软件验证任务的标准交换格式

[Paper] 多智能体系统在软件工程数据集适配中的应用：能力、局限性与未来方向

[Paper] 轻量级模型编辑用于 LLM 纠正已弃用的 API 推荐

[Paper] 层次评估 Large Language Models of Code 的软件设计能力