[Paper] PenForge：用于自动化渗透测试的即时专家代理构建

发布: 1周前 (2026年1月11日 GMT+8 21:29)

7 min read

原文: arXiv

Source: arXiv - 2601.06910v1

Overview

PenForge 解决了自动化安全测试中长期存在的痛点：静态、千篇一律的 AI 代理要么错过复杂漏洞，要么无法在不同漏洞家族之间实现通用。通过 即时构建专用的 LLM 驱动代理，PenForge 能够适配每个目标 Web 应用的独特上下文，在具有挑战性的零日基准测试中实现了利用成功率的三倍提升。

关键贡献

动态专家代理构建：引入一种流水线，在渗透测试期间创建上下文感知的 LLM 代理，而不是预先定义它们。
集成的侦察‑到‑利用循环：自动发现攻击面，选择最相关的专业知识，并生成定制的代理执行利用。
实证突破：在 CVE‑Bench 零日套件上实现了 30 % 的利用成功率（12/40），约为之前最佳 LLM‑基系统的 3 倍。
开放的研究议程：提出三条具体路径——更丰富的工具使用知识、更广泛的基准覆盖以及可解释的人机交互审查，以推动该领域前进。

方法论

自动化侦察 – PenForge 首先运行轻量级扫描器（例如 OWASP ZAP、自定义爬虫），以绘制端点、参数和技术栈的映射。
上下文提取 – 收集到的数据会输入大型语言模型，提取显著线索（例如 “使用过时的 jQuery”、 “暴露管理员 API”）。
即时代理合成 – 基于这些线索，PenForge 提示 LLM 生成一个 微代理，配备合适的利用策略和工具命令（例如 SQLi 负载生成器、XSS 负载、Metasploit 模块）。
执行与反馈 – 微代理对目标运行精心构造的负载，监控响应，并使用短期记忆缓冲区迭代优化其方法。
结果聚合 – 成功的利用会被记录，系统可选择将其交给人工分析员进行验证。

整个流水线自动运行，但每一步都是模块化的，允许开发者替换为其他扫描器、LLM 后端或自定义工具包。

结果与发现

成功率：40 个零日 CVE 中有 12 个被完全利用，成功率为 30 %，相比之前最佳的基于 LLM 的测试工具约 10 %。
速度：每个漏洞的平均利用时间从约 8 分钟（静态代理）下降到约 4 分钟，这归功于生成的代理具备针对性。
多样性：PenForge 在更广泛的漏洞类别（SQL 注入、SSRF、反序列化漏洞）上取得成功，而静态代理往往只能在狭窄的子集上表现出色。
失败分析：大多数未能利用的漏洞源于对不常见第三方工具（例如小众模糊测试工具）的了解不足，以及模糊的侦察数据导致代理专精度不佳。

实际影响

可扩展的红队自动化: 安全团队可以将 PenForge 部署为“持续渗透测试”服务，能够自动适应新代码发布，无需为每个组件手动编写测试脚本。
对开发者友好的发现: 由于每个漏洞利用都是由上下文感知的代理生成，生成的概念验证负载更真实，开发者更容易复现和修复。
工具链集成: PenForge 的模块化设计使 DevSecOps 流水线能够将其嵌入 CI/CD 工作流，自动在预发布环境触发从侦察到利用的运行。
成本降低: 通过减少对高级人工渗透测试人员进行常规漏洞挖掘的依赖，组织可以将人力专长投入到更高影响的威胁建模和修复工作中。
可解释 AI 安全的基础: 实时代理记录推理步骤（侦察 → 线索提取 → 代理提示 → 负载），提供透明的审计轨迹，可向审计员或合规官员展示。

限制与未来工作

工具使用知识缺口：LLM 有时会生成假设目标上已安装某些工具或库的有效载荷，从而限制了利用的可靠性。
基准范围：评估仅局限于 CVE‑Bench 套件；需要更广泛、面向行业规模的基准（包括移动、API‑first 和云原生服务）来验证通用性。
可解释性与人工监督：虽然系统会生成日志，但当前缺乏精致的用户界面供安全分析员审查和干预，这对于在全自动测试中建立信任至关重要。

PenForge 标志着向 自适应、LLM 驱动的安全自动化 的有希望的转变，其开放的研究议程邀请社区将该方法完善为可投入生产、值得信赖的现代软件安全武器库组件。

作者

Huihui Huang
Jieke Shi
Junkai Chen
Ting Zhang
Yikun Li
Chengran Yang
Eng Lieh Ouh
Lwin Khin Shar
David Lo

论文信息

arXiv ID: 2601.06910v1
分类: cs.SE
发表时间: 2026年1月11日
PDF: 下载 PDF

[Paper] PenForge：用于自动化渗透测试的即时专家代理构建

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 将形式化方法工具应用于电子战代码库（经验报告）

[Paper] 实用指南：建立技术债务管理

[论文] RITA：一种用于从在线用户反馈中自动化需求分类与规范的工具

[Paper] GitHub Actions 工作流中的自动化与复用实践：实践者视角