[Paper] Human-AI 协作实现规模化敏捷回归测试：从手动到自动化的 Agentic-AI 队友

发布: 1天前 (2026年3月9日 GMT+8 18:19)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08190v1

概述

本文解决了敏捷软件交付中的一个常见痛点：测试规范的编写速度快于将其转化为可运行的回归测试的速度。通过在 Hacon（西门子）开发流水线中嵌入一个“具备代理能力的 AI 同事”，作者展示了 AI 如何能够从已验证的规范自动生成系统级测试脚本，从而显著加快自动化进程，同时让人类保持在质量控制的环路中。

Agentic AI teammate: 一个检索增强的多代理系统，能够摄取已验证的测试规范并生成可执行的回归测试脚本。
Integration into agile workflow: 为 Hacon 现有的 CI/CD 和待办事项管理工具提供无缝插件，使开发人员能够在常规冲刺周期中请求、审查和迭代 AI 生成的测试。
Mixed‑method evaluation: 将定量指标（测试脚本产出率、节省的人工工作量）与来自工业合作伙伴的定性从业者反馈相结合。
Guidelines for Human‑AI collaboration: 关于规范质量、审查流程以及在规模化自动化测试时的可维护性的实用经验。

规格检索: 系统首先从需求仓库（例如 JIRA 票据、Confluence 页面）中获取最新、已验证的测试规格。
提示工程与检索增强生成: 大型语言模型（LLM）使用领域特定提示进行预置，并结合检索到的代码片段、API 文档和已有的测试工件，以提升相关性。
多代理编排:
- Planner Agent（规划代理） 决定整体测试流程（设置、操作、断言）。
- Coder Agent（编码代理） 在目标测试框架（例如 Selenium、Cypress）中编写脚本。
- Validator Agent（验证代理） 进行静态分析并快速冒烟执行，以捕获明显错误。
人工审查循环: 开发者在类似 Pull Request 的界面中收到生成的脚本，可进行编辑、批准或拒绝。批准的脚本会自动合并到测试套件中。
评估: 在为期 3 个月的试点中，作者测量了：
- 生成的脚本数量与手工编写的对比。
- 手动编写测试所花费的时间。
- AI 生成测试的缺陷检测率。
- 通过调查和访谈获得的从业者满意度。

Metric	Before AI teammate	After AI teammate	% Change
Test scripts produced per sprint	12	34	+183%
Manual authoring effort (person‑hours)	28 h	9 h	–68%
Defect detection coverage (same test set)	92%	90%	–2% (statistically insignificant)
Developer satisfaction (Likert 1‑5)	3.2	4.4	+1.2

底线：通过将检索增强型 LLM 与多代理编排层以及轻量级人工审查环路相结合，作者展示了一条在快速迭代的敏捷环境中扩展回归测试自动化的可行路径——提供了一个许多开发组织今天即可采纳的蓝图。