[Paper] RESTifAI：基于 LLM 的可复用 REST API 测试工作流

发布: 1个月前 (2025年12月9日 GMT+8 23:21)

6 min read

原文: arXiv

Source: arXiv - 2512.08706v1

概览

本文提出了 RESTifAI，一种利用大型语言模型（LLM）自动生成可复用、CI/CD‑就绪的 REST API 测试的全新工作流。该方法首先聚焦于 happy‑path 场景，然后推导负面案例，旨在生成既能验证成功响应（2xx）又能验证错误响应（4xx）的可靠测试套件——这是许多现有工具所忽视的。

主要贡献

LLM 驱动的测试生成：创建可直接用于 CI 流水线的端到端 REST API 测试。
以 happy‑path 为中心的策略：在合成边缘（负面）测试之前，先构建有效的请求序列。
可复用的测试工件：生成的测试模块化，能够轻松在多个服务或版本之间集成。
Oracle 简化：使用响应状态码（2xx/4xx）作为主要测试 Oracle，减少对复杂自定义断言的需求。
与最先进工具的实证比较（AutoRestTest、LogiAgent），显示出相当的覆盖率，同时提升了可复用性和集成便利性。
开源实现（GitHub）和简短演示视频，便于立即采用。

方法论

API 规范摄取 – RESTifAI 接收 OpenAPI/Swagger 定义（或可从实时流量中推断）。
LLM 提示工程 – 精心设计的提示引导大型语言模型（如 GPT‑4）生成符合 API 合约的真实请求负载和序列。
Happy‑Path 测试合成 – LLM 产生一组有效的请求/响应对，执行预期工作流，并断言服务返回 2xx 状态。
负面测试推导 – 对每个 happy‑path 测试，系统对输入进行变异（如缺少字段、超出范围的值），以触发 4xx 响应，检查 API 是否正确拒绝 malformed 或违反业务规则的请求。
测试代码生成 – 工具输出可直接运行的测试脚本（如 Python/pytest 或 JavaScript/Jest），仅含最少的样板代码，兼容 CI/CD。
评估 – 在工业 REST 服务基准上进行实验，将覆盖率、缺陷检测和可复用性与其他 LLM‑基测试生成器进行比较。

结果与发现

覆盖率持平：RESTifAI 实现了与 AutoRestTest 和 LogiAgent 相似的功能覆盖率（≈ 85 % 的文档化端点）。
缺陷检测：在注入的 bug 场景中，该工具捕获了 92 % 的缺陷，匹配了最佳工具的表现。
可复用性提升：RESTifAI 生成的测试套件在 API 版本升级时仅需约 10 % 的修改率，而基线工具超过 30 %。
Oracle 简单化：通过聚焦状态码断言，生成的测试避免了常见的负载级比较导致的 flaky 行为。
集成便利：输出脚本无需额外脚手架即可在常见 CI 流水线（GitHub Actions、Jenkins、GitLab CI）中运行。

实际意义

更快的上手：团队可以在几分钟内为新设计的 API 启动基线测试套件，减少编写样板测试的人工工作量。
持续测试：由于生成的测试已具备 CI‑就绪特性，开发者能够在 API 演进时及早捕获回归。
可靠性提升：happy‑path + 负面案例策略确保功能成功和正确的错误处理都得到验证，从而提升服务的稳健性。
成本效益的 QA：利用 LLM 减少了大量领域特定的测试编写工作，使 QA 工程师能够专注于更高层次的场景设计。
开源采纳：代码公开可用，组织可以自定义提示模板或将工作流集成到现有的 API 管理工具（如 Kong、Apigee）中。

局限性与未来工作

对 LLM 的依赖：测试质量取决于底层语言模型；使用过时或规模较小的模型可能生成不够真实的负载。
Oracle 粒度：仅依赖状态码可能遗漏需要更深层负载验证的细微业务逻辑错误。
规范质量：不完整或不准确的 OpenAPI 文档会限制工具生成有意义测试的能力。
未来方向：作者计划加入更丰富的 Oracle（模式验证、基于合约的断言），支持 GraphQL/端到端工作流，以及能够从先前测试结果中学习的自适应提示。

作者

Leon Kogler
Maximilian Ehrhart
Benedikt Dornauer
Eduard Paul Enoiu

论文信息

arXiv ID: 2512.08706v1
分类: cs.SE
发布日期: 2025 年 12 月 9 日
PDF: Download PDF

相关文章

阅读更多 »

[论文] 代理撰写的拉取请求中的库使用研究

编码代理正变得越来越能够完成以前需要人工开发者的端到端软件工程工作流，包括 ra...

【论文】Mini-SFC：用于服务功能链编排与管理的综合仿真框架

在不断演进的云计算和网络环境中，服务功能链（SFC）在实现复杂服务方面发挥着关键作用。

[Paper] AutoFSM：一种用于 FSM 代码生成、IR 与基于 SystemC 测试的多代理框架

随着大语言模型（LLMs）在代码生成方面的快速发展，它们在硬件设计中的应用正受到越来越多的关注。然而，e...

[Paper] CIS 基准扫描结果的可视化

在本文中，我们介绍了 GraphSecure，这是一款提供安全扫描结果高级分析和可视化的 Web 应用程序。GraphSecure 使用户……