[Paper] 什么因素决定了用于真实世界渗透测试的优秀 LLM Agent？

发布: 3天前 (2026年2月20日 GMT+8 02:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.17622v1

概述

本文研究了在进行真实世界渗透测试时，大语言模型（LLM）代理为何表现出如此不一致的原因。通过剖析 28 个现有系统并测试五个代表性代理，作者定位了两个根本性的失败模式，并提出了 Excalibur，一种将强大的工具与“difficulty‑aware”规划相结合的新代理，以显著提升攻击成功率。

关键贡献

系统化的失败分类：确定 Type A（工具和提示缺口）和 Type B（规划和状态管理缺口）在广泛的基于 LLM 的渗透测试代理中的失败。
Type B 失败的根本原因分析：表明所有代理，无论模型大小，都缺乏实时任务难度估计，导致工作浪费和上下文溢出。
Excalibur 架构：
- 工具与技能层 – 类型化接口和检索增强知识，消除 Type A 失败。
- 任务难度评估 (TDA) – 量化四个维度（视野、证据置信度、上下文负载、历史成功率），以估计每个子任务的可行性。
- 证据引导攻击树搜索 (EGATS) – 使用 TDA 分数在攻击规划中平衡探索与利用。
实证验证：在 CTF 基准测试中展示最高 91 % 的任务完成率（相对提升 39‑49 %），并在 GOAD Active Directory 环境中攻破 4/5 台主机，超越了之前的最先进代理。
关于扩展限制的洞察：表明仅使用更大的 LLM 并不能解决 Type B 失败；需要智能规划。

方法论

Survey & Classification – 收集了 28 个公开可用的基于 LLM 的渗透测试系统，按其架构、工具集和提示策略进行分类。
Benchmark Suite – 构建了三个逐步升级的测试环境：
- 简单的 CTF 风格挑战（单步利用）。
- 需要状态跟踪的多步攻击链。
- 真实企业场景（GOAD Active Directory）。
Failure Mode Diagnosis – 将每个代理的失败追溯至缺失的能力（Type A）或决策与上下文处理不佳（Type B）。
Design of Excalibur –
- Tool & Skill Layer 提供一个带类型的 API 目录（例如端口扫描器、凭证转储器），并通过从安全数据库检索的知识来增强提示。
- Task Difficulty Assessment 使用以下因素为每个候选子任务计算标量难度分数：
  - Horizon estimation（需要向前多少步）
  - Evidence confidence（收集情报的确定性）
  - Context load（提示/上下文占用的大小）
  - Historical success（在类似任务上的历史成功率）
- EGATS 利用这些分数在攻击树中优先选择低成本、高价值的分支，剪枝超出上下文限制的路径。
Evaluation – 在三个基准测试上运行 Excalibur 与基线代理，衡量任务完成率、被攻陷主机数量以及 LLM 令牌使用情况。

结果与发现

Benchmark	Baseline Avg. Completion	Excalibur Completion	Relative Gain
Simple CTF	~55 %	91 %	+39 %
Multi‑step CTF	~48 %	84 %	+46 %
GOAD AD (5 hosts)	2 compromised	4 compromised	+100 %

Token efficiency: 难度感知剪枝将上下文溢出降低约 30 %，使 LLM 能在 token 限制内运行更久。
Model‑agnostic improvement: 在前沿 LLM（GPT‑4、Claude‑2、Llama‑2‑70B）上均表现出一致的提升，证明优势来源于规划，而非模型规模。
Failure reduction: 由于标准化工具层，Type A 失效几乎降至零；在集成 TDA 后，Type B 失效下降超过 70 %。

实际意义

更可靠的自动化红队工具：安全团队可以采用 Excalibur‑style 代理持续探测内部资产，避免当前 LLM 机器人高误报率。
成本效益高的渗透测试：通过避免浪费 token 消耗，组织可以在更便宜的 LLM API 上进行大规模评估，同时仍实现深度覆盖。
其他领域的框架：难度感知规划范式可以迁移到 DevOps 中的 LLM 代理（例如自动化事件响应）、代码合成或数据管道编排等任务分支和上下文限制关键的场景。
更好地与现有工具集成：类型化的工具与技能层自然契合安全框架（Metasploit、Nmap、BloodHound），简化在 CI/CD 流水线中部署，实现持续安全验证。

限制与未来工作

Domain specificity: 当前实现专注于网络层渗透测试；扩展到 Web 应用或云原生攻击面可能需要新的工具抽象。
Difficulty metric calibration: TDA 依赖于在作者基准上调优的启发式方法（例如视野估计）；需要在多样化企业环境中进行更广泛的验证。
Real‑time adaptation: Excalibur 在执行前估计难度，但尚未在出现意外证据时即时调整——这是未来研究的有前景方向。
Human‑in‑the‑loop safety: 论文未涉及防止高度能力代理被恶意滥用的安全措施；将基于策略的约束集成进来是一个未解决的挑战。

作者

Gelei Deng
Yi Liu
Yuekang Li
Ruozhao Yang
Xiaofei Xie
Jie Zhang
Han Qiu
Tianwei Zhang

论文信息

arXiv ID: 2602.17622v1
分类: cs.CR, cs.SE
出版日期: February 19, 2026
PDF: 下载 PDF

[Paper] 什么因素决定了用于真实世界渗透测试的优秀 LLM Agent？

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] huff：用于市场区域分析的 Python 包

[Paper] 面向需求工程中自然语言处理工具的软件参考架构

自适应系统中伦理的运行时维度

[Paper] 量子软件社区的社会技术福祉：社区异味概述