[Paper] PentestEval：基准测试基于LLM的渗透测试的模块化和阶段级设计

发布: 1个月前 (2025年12月16日 GMT+8 17:37)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.14233v1

概述

本文介绍了 PentestEval，这是首个系统性衡量大型语言模型（LLM）在渗透测试自动化方面表现的基准。通过将测试工作流拆分为六个独立阶段并提供大规模、专家策划的数据集，作者揭示了流行 LLM 在被要求充当安全分析师时的当前优势和显著弱点。

关键贡献

模块化基准设计 – 六个明确定义的渗透测试阶段（信息收集、弱点收集与过滤、攻击决策、漏洞利用生成、漏洞利用修正以及整体成功）实现细粒度性能分析。
大规模、真实的数据集 – 346 个带注释的任务，覆盖 12 个真实世界的易受攻击场景，提供完整的真实利用步骤和结果。
全自动评估流水线 – 脚本可执行 LLM 输出，验证利用成功，并在无需人工干预的情况下计算各阶段指标。
全面的 LLM 对比 – 对九种广泛使用的 LLM（包括 GPT‑4、Claude、LLaMA‑2 等）以及三款现有的 LLM 驱动渗透测试工具（PentestGPT、PentestAgent、VulnBot）进行实证研究。
关于模块化的深刻发现 – 证明模块化、逐阶段的方法相较于单一“黑箱”提示显著提升成功率。

方法论

任务分解 – 作者将典型的渗透测试工作流映射为六个顺序阶段，每个阶段都有具体的输入/输出约定（例如，“给定目标 IP，列出开放的服务”）。
场景构建 – 使用常见的 CVE 和错误配置（例如，过时的 Web 服务器、不安全的 Docker 设置）构建了十二个易受攻击的环境。
真实标注 – 安全专家在每个场景上手动执行每个阶段，生成“黄金标准”输出（服务指纹、CVE 编号、利用脚本等）。
提示模板 – 为每个阶段创建了一套精心设计的提示（少量示例、系统消息和明确指令）。
LLM 评估 – 使用相同的提示查询了九个 LLM。它们的响应被送入自动化流水线，进行：
- 解析输出，
- 在沙箱中执行生成的命令或利用代码，
- 检查利用是否成功（例如，获得 shell 访问、权限提升）。
指标 – 阶段级准确率（信息收集的精确率/召回率）、决策正确性、利用生成成功率以及整体端到端成功率。

结果与发现

阶段	表现最佳的 LLM（准确率）	常见失败模式
信息收集	GPT‑4（78%）	未发现隐藏服务，输出噪声大
弱点收集与过滤	Claude‑2（62%）	生成过多 CVE 编号，相关性低
攻击决策	LLaMA‑2‑70B（55%）	选择不可利用的向量
漏洞利用生成	GPT‑4（48%）	语法错误，缺少有效载荷
漏洞利用修订	Claude‑2（41%）	无法适应沙箱反馈
端到端成功	—	31%（整体流水线）

关键要点

即使是最强大的 LLM（GPT‑4），在逐阶段评估时也在超过三分之二的任务中失败。
基于这些模型构建的自主代理（PentestGPT、PentestAgent、VulnBot）几乎在任何阶段都难以成功，证实了仅靠“提示”自动化不足。
将工作流模块化（为每个阶段使用专用提示）将成功率从 <10 %（单体）提升至约 31 % 的整体成功率，但上限仍然偏低。

实际影响

工具开发者 应采用流水线架构：对侦察、漏洞映射和利用构造分别进行独立的 LLM 调用，而不是使用单一的“全能”提示。
安全团队 可以在生产环境中信任 LLM 生成的脚本之前，使用 PentestEval 进行合理性检查；该基准突显了仍需人工审查的环节（例如利用生成）。
CI/CD 安全集成 可以嵌入阶段级别的 LLM 检查，以自动标记缺失的补丁或错误配置，但必须保留专家验证的后备方案。
LLM 供应商 现在拥有一套具体且可复现的测试套件，用于对未来模型发布进行安全任务基准测试，鼓励在渗透测试数据上进行微调。

限制与未来工作

场景多样性 – 基准覆盖了 12 种设置；虽然多样，但并未涵盖所有网络拓扑、云服务或物联网设备。
提示工程偏差 – 结果取决于手工提示的质量；不同的提示设计可能会改变性能。
沙箱真实度 – 执行在隔离的容器中，可能无法捕捉真实攻击中的时序侧信道或硬件层面的细微差别。
未来方向（作者提出）包括：扩展数据集以覆盖更现代的攻击面（如 Kubernetes、无服务器），加入基于强化学习的代理以迭代细化利用手段，以及探索针对特定阶段安全语料的模型微调。

作者

Ruozhao Yang
Mingfei Cheng
Gelei Deng
Tianwei Zhang
Junjie Wang
Xiaofei Xie

论文信息

arXiv ID: 2512.14233v1
分类: cs.SE, cs.AI, cs.CR
发布时间: 2025年12月16日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

单目深度估计仍然具有挑战性，因为最近的基础模型，如 Depth Anything V2 (DA-V2)，在处理与真实世界图像相差甚远的情况时表现不佳。

[Paper] 开放基础模型中视觉的对抗鲁棒性

随着深度学习的提升，理解 AI 系统能够识别对象的模型变得越来越困难。因此，对手可能会……

[Paper] 当推理遇到其法则

尽管 Large Reasoning Models (LRMs) 的卓越性能，其推理行为常常违背直觉，导致推理能力次优……

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构

模仿学习（Imitation learning，IL）通过从专家示范中学习，实现自主行为。相较于诸如强化学习（reinforcement learning）等比较的替代方法，它在样本效率上更高。