[Paper] PenForge:用于自动化渗透测试的即时专家代理构建

发布: (2026年1月11日 GMT+8 21:29)
7 min read
原文: arXiv

Source: arXiv - 2601.06910v1

Overview

PenForge 解决了自动化安全测试中长期存在的痛点:静态、千篇一律的 AI 代理要么错过复杂漏洞,要么无法在不同漏洞家族之间实现通用。通过 即时构建专用的 LLM 驱动代理,PenForge 能够适配每个目标 Web 应用的独特上下文,在具有挑战性的零日基准测试中实现了利用成功率的三倍提升。

关键贡献

  • 动态专家代理构建:引入一种流水线,在渗透测试期间创建上下文感知的 LLM 代理,而不是预先定义它们。
  • 集成的侦察‑到‑利用循环:自动发现攻击面,选择最相关的专业知识,并生成定制的代理执行利用。
  • 实证突破:在 CVE‑Bench 零日套件上实现了 30 % 的利用成功率(12/40),约为之前最佳 LLM‑基系统的 3 倍
  • 开放的研究议程:提出三条具体路径——更丰富的工具使用知识、更广泛的基准覆盖以及可解释的人机交互审查,以推动该领域前进。

方法论

  1. 自动化侦察 – PenForge 首先运行轻量级扫描器(例如 OWASP ZAP、自定义爬虫),以绘制端点、参数和技术栈的映射。
  2. 上下文提取 – 收集到的数据会输入大型语言模型,提取显著线索(例如 “使用过时的 jQuery”、 “暴露管理员 API”)。
  3. 即时代理合成 – 基于这些线索,PenForge 提示 LLM 生成一个 微代理,配备合适的利用策略和工具命令(例如 SQLi 负载生成器、XSS 负载、Metasploit 模块)。
  4. 执行与反馈 – 微代理对目标运行精心构造的负载,监控响应,并使用短期记忆缓冲区迭代优化其方法。
  5. 结果聚合 – 成功的利用会被记录,系统可选择将其交给人工分析员进行验证。

整个流水线自动运行,但每一步都是模块化的,允许开发者替换为其他扫描器、LLM 后端或自定义工具包。

结果与发现

  • 成功率:40 个零日 CVE 中有 12 个被完全利用,成功率为 30 %,相比之前最佳的基于 LLM 的测试工具约 10 %。
  • 速度:每个漏洞的平均利用时间从约 8 分钟(静态代理)下降到约 4 分钟,这归功于生成的代理具备针对性。
  • 多样性:PenForge 在更广泛的漏洞类别(SQL 注入、SSRF、反序列化漏洞)上取得成功,而静态代理往往只能在狭窄的子集上表现出色。
  • 失败分析:大多数未能利用的漏洞源于对不常见第三方工具(例如小众模糊测试工具)的了解不足,以及模糊的侦察数据导致代理专精度不佳。

实际影响

  • 可扩展的红队自动化: 安全团队可以将 PenForge 部署为“持续渗透测试”服务,能够自动适应新代码发布,无需为每个组件手动编写测试脚本。
  • 对开发者友好的发现: 由于每个漏洞利用都是由上下文感知的代理生成,生成的概念验证负载更真实,开发者更容易复现和修复。
  • 工具链集成: PenForge 的模块化设计使 DevSecOps 流水线能够将其嵌入 CI/CD 工作流,自动在预发布环境触发从侦察到利用的运行。
  • 成本降低: 通过减少对高级人工渗透测试人员进行常规漏洞挖掘的依赖,组织可以将人力专长投入到更高影响的威胁建模和修复工作中。
  • 可解释 AI 安全的基础: 实时代理记录推理步骤(侦察 → 线索提取 → 代理提示 → 负载),提供透明的审计轨迹,可向审计员或合规官员展示。

限制与未来工作

  • 工具使用知识缺口:LLM 有时会生成假设目标上已安装某些工具或库的有效载荷,从而限制了利用的可靠性。
  • 基准范围:评估仅局限于 CVE‑Bench 套件;需要更广泛、面向行业规模的基准(包括移动、API‑first 和云原生服务)来验证通用性。
  • 可解释性与人工监督:虽然系统会生成日志,但当前缺乏精致的用户界面供安全分析员审查和干预,这对于在全自动测试中建立信任至关重要。

PenForge 标志着向 自适应、LLM 驱动的安全自动化 的有希望的转变,其开放的研究议程邀请社区将该方法完善为可投入生产、值得信赖的现代软件安全武器库组件。

作者

  • Huihui Huang
  • Jieke Shi
  • Junkai Chen
  • Ting Zhang
  • Yikun Li
  • Chengran Yang
  • Eng Lieh Ouh
  • Lwin Khin Shar
  • David Lo

论文信息

  • arXiv ID: 2601.06910v1
  • 分类: cs.SE
  • 发表时间: 2026年1月11日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »