[Paper] 用 agentic AI 支持软件工程任务:文档检索与测试场景生成演示

发布: (2026年2月5日 GMT+8 00:33)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.04726v1

概述

本文提出了两个 agentic AI 原型,自动化常见的软件工程任务:(1)直接从详细的需求文本生成测试场景;(2)检索、回答并汇总工程文档。通过将专门的 大型语言模型(LLM)代理在监督性的 “hub” 下进行连接,作者展示了少量编排即可将原始自然语言制品转化为可操作的开发资产。

关键贡献

  • 星形拓扑代理框架 – 一个监督代理协调多个工作代理,每个代理专注于子任务(例如,解析需求、起草测试步骤或处理特定的文档检索用例)。
  • 自动测试场景生成 – 系统从单一需求描述生成结构化测试用例,准备好纳入测试套件。
  • 多用途文档检索助手 – 单一的基于大语言模型的流水线支持关键词搜索、问答、变更追踪以及对项目文档语料库的大规模摘要。
  • 真实场景演示 – 原型在真实的软件项目中进行评估,展示了端到端的可行性,无需为每一步手工编写提示。
  • 开放研究议程 – 作者概述了如何将代理模式扩展到其他软件工程任务(例如,代码审查、影响分析),并讨论了可扩展性考虑。

方法论

  1. 代理设计 – 每个工作代理都是经过微调或提示工程的 LLM,能够执行单一的窄功能(例如,“提取功能条款”,“编写 Given/When/Then 步骤”)。
  2. 监督者协调 – 中央监督者解析高级请求,决定调用哪些工作代理,并将它们的输出拼接在一起。通信遵循简单的基于 JSON 的合约,使系统语言无关。
  3. 测试场景流水线
    • 输入: 自然语言需求(例如,“系统应在三次失败后拒绝登录尝试”。)
    • 步骤:
      1. 需求解析器 提取实体、约束以及成功/失败条件。
      2. 场景构建器 创建 BDD 风格的测试大纲。
      3. 验证器 检查完整性和一致性。
    • 输出: 可直接使用的测试用例文件。
  4. 文档检索流水线
    • 文档语料库已建立索引(向量嵌入 + 传统倒排索引)。
    • 根据用户意图,监督者将请求路由至:
      • 搜索代理(关键词/语义检索)。
      • 问答代理(抽取式答案生成)。
      • 变更追踪代理(跨版本差异检测)。
      • 摘要代理(压缩大型规范集合)。
    • 每个代理在返回自然语言响应前,可调用辅助工具(例如差异引擎)。

整个系统运行在普通的云 GPU 上;除提示工程外无需自定义模型训练。

结果与发现

  • Test‑Scenario Generation 为 30 条真实需求中的 87 % 生成了正确的 BDD 场景,其余情况只需进行少量手动微调。
  • Document Retrieval 在语义搜索中实现了平均 precision@5 为 0.78,针对 QA 答案相较于人工基准的 BLEU‑like 分数为 0.71。
  • 端到端延迟在大多数查询下保持在 5 秒以内,表明轻量级编排层不会引入过大的开销。
  • 星形拓扑表现出良好的鲁棒性:添加或替换工作代理只需更新 supervisor 的路由表,无需重新设计整个流水线。

实际意义

  • Accelerated Test Development – 团队可以从需求文档自动填充测试套件,使 QA 工程师能够专注于边缘案例设计,而不是重复的模板工作。
  • Unified Knowledge Hub – 单一对话界面可以取代多个工具(搜索引擎、工单跟踪器、变更日志查看器),降低开发者的上下文切换。
  • Plug‑and‑Play Extensibility – 由于每个 worker 是独立的 LLM 服务,组织可以在不重写编排逻辑的情况下替换为领域特定模型(例如用于威胁模型 QA 的安全聚焦 LLM)。
  • Cost‑Effective Automation – 该方法利用现有的 LLM API;主要费用是推理时间,可按查询计费预算,对中小企业具有吸引力。
  • Compliance & Auditing – 结构化输出(JSON、BDD)可以记录并进行版本控制,实现从需求到测试用例的可追溯性,对受监管行业是极大的帮助。

限制与未来工作

  • 提示敏感性 – 每个工作者输出的质量仍然依赖于精心设计的提示;需要系统化的提示管理策略以确保生产环境的稳定性。
  • 监督者的可扩展性 – 随着用例数量的增加,监督者可能成为瓶颈;作者建议采用层级监督网络或微服务拆分。
  • 领域泛化 – 原型仅在单一软件项目上进行评估;需要在嵌入式、AI 驱动系统等多种领域进行更广泛的基准测试,以验证其通用性。
  • 评估深度 – 人机交互评估有限;未来工作将包括更大规模的用户研究,以衡量生产力提升和错误率降低。

结论:通过将大语言模型视为模块化代理而非单一聊天机器人,本文为开发者将生成式 AI 直接嵌入日常软件工程工作流提供了实用路径。测试创建和文档处理方面的显著提升暗示着在不久的将来,“AI 助手”流水线将成为开发工具链的标准组成部分。

作者

  • Marian Kica
  • Lukas Radosky
  • David Slivka
  • Karin Kubinova
  • Daniel Dovhun
  • Tomas Uhercik
  • Erik Bircak
  • Ivan Polasek

论文信息

  • arXiv ID: 2602.04726v1
  • Categories: cs.SE, cs.AI
  • Published: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……