[Paper] 用 agentic AI 支持软件工程任务：文档检索与测试场景生成演示

发布: 4天前 (2026年2月5日 GMT+8 00:33)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.04726v1

概述

本文提出了两个 agentic AI 原型，自动化常见的软件工程任务：（1）直接从详细的需求文本生成测试场景；（2）检索、回答并汇总工程文档。通过将专门的大型语言模型（LLM）代理在监督性的 “hub” 下进行连接，作者展示了少量编排即可将原始自然语言制品转化为可操作的开发资产。

代理设计 – 每个工作代理都是经过微调或提示工程的 LLM，能够执行单一的窄功能（例如，“提取功能条款”，“编写 Given/When/Then 步骤”）。
监督者协调 – 中央监督者解析高级请求，决定调用哪些工作代理，并将它们的输出拼接在一起。通信遵循简单的基于 JSON 的合约，使系统语言无关。
测试场景流水线
- 输入： 自然语言需求（例如，“系统应在三次失败后拒绝登录尝试”。）
- 步骤：
  1. 需求解析器 提取实体、约束以及成功/失败条件。
  2. 场景构建器 创建 BDD 风格的测试大纲。
  3. 验证器 检查完整性和一致性。
- 输出： 可直接使用的测试用例文件。
文档检索流水线
- 文档语料库已建立索引（向量嵌入 + 传统倒排索引）。
- 根据用户意图，监督者将请求路由至：
  - 搜索代理（关键词/语义检索）。
  - 问答代理（抽取式答案生成）。
  - 变更追踪代理（跨版本差异检测）。
  - 摘要代理（压缩大型规范集合）。
- 每个代理在返回自然语言响应前，可调用辅助工具（例如差异引擎）。

整个系统运行在普通的云 GPU 上；除提示工程外无需自定义模型训练。

Test‑Scenario Generation 为 30 条真实需求中的 87 % 生成了正确的 BDD 场景，其余情况只需进行少量手动微调。
Document Retrieval 在语义搜索中实现了平均 precision@5 为 0.78，针对 QA 答案相较于人工基准的 BLEU‑like 分数为 0.71。
端到端延迟在大多数查询下保持在 5 秒以内，表明轻量级编排层不会引入过大的开销。
星形拓扑表现出良好的鲁棒性：添加或替换工作代理只需更新 supervisor 的路由表，无需重新设计整个流水线。

Accelerated Test Development – 团队可以从需求文档自动填充测试套件，使 QA 工程师能够专注于边缘案例设计，而不是重复的模板工作。
Unified Knowledge Hub – 单一对话界面可以取代多个工具（搜索引擎、工单跟踪器、变更日志查看器），降低开发者的上下文切换。
Plug‑and‑Play Extensibility – 由于每个 worker 是独立的 LLM 服务，组织可以在不重写编排逻辑的情况下替换为领域特定模型（例如用于威胁模型 QA 的安全聚焦 LLM）。
Cost‑Effective Automation – 该方法利用现有的 LLM API；主要费用是推理时间，可按查询计费预算，对中小企业具有吸引力。
Compliance & Auditing – 结构化输出（JSON、BDD）可以记录并进行版本控制，实现从需求到测试用例的可追溯性，对受监管行业是极大的帮助。

结论：通过将大语言模型视为模块化代理而非单一聊天机器人，本文为开发者将生成式 AI 直接嵌入日常软件工程工作流提供了实用路径。测试创建和文档处理方面的显著提升暗示着在不久的将来，“AI 助手”流水线将成为开发工具链的标准组成部分。