[Paper] 什么因素决定了用于真实世界渗透测试的优秀 LLM Agent?

发布: (2026年2月20日 GMT+8 02:42)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.17622v1

概述

本文研究了在进行真实世界渗透测试时,大语言模型(LLM)代理为何表现出如此不一致的原因。通过剖析 28 个现有系统并测试五个代表性代理,作者定位了两个根本性的失败模式,并提出了 Excalibur,一种将强大的工具与“difficulty‑aware”规划相结合的新代理,以显著提升攻击成功率。

关键贡献

  • 系统化的失败分类:确定 Type A(工具和提示缺口)和 Type B(规划和状态管理缺口)在广泛的基于 LLM 的渗透测试代理中的失败。
  • Type B 失败的根本原因分析:表明所有代理,无论模型大小,都缺乏实时任务难度估计,导致工作浪费和上下文溢出。
  • Excalibur 架构
    • 工具与技能层 – 类型化接口和检索增强知识,消除 Type A 失败。
    • 任务难度评估 (TDA) – 量化四个维度(视野、证据置信度、上下文负载、历史成功率),以估计每个子任务的可行性。
    • 证据引导攻击树搜索 (EGATS) – 使用 TDA 分数在攻击规划中平衡探索与利用。
  • 实证验证:在 CTF 基准测试中展示最高 91 % 的任务完成率(相对提升 39‑49 %),并在 GOAD Active Directory 环境中攻破 4/5 台主机,超越了之前的最先进代理。
  • 关于扩展限制的洞察:表明仅使用更大的 LLM 并不能解决 Type B 失败;需要智能规划。

方法论

  1. Survey & Classification – 收集了 28 个公开可用的基于 LLM 的渗透测试系统,按其架构、工具集和提示策略进行分类。
  2. Benchmark Suite – 构建了三个逐步升级的测试环境:
    • 简单的 CTF 风格挑战(单步利用)。
    • 需要状态跟踪的多步攻击链。
    • 真实企业场景(GOAD Active Directory)。
  3. Failure Mode Diagnosis – 将每个代理的失败追溯至缺失的能力(Type A)或决策与上下文处理不佳(Type B)。
  4. Design of Excalibur
    • Tool & Skill Layer 提供一个带类型的 API 目录(例如端口扫描器、凭证转储器),并通过从安全数据库检索的知识来增强提示。
    • Task Difficulty Assessment 使用以下因素为每个候选子任务计算标量难度分数:
      • Horizon estimation(需要向前多少步)
      • Evidence confidence(收集情报的确定性)
      • Context load(提示/上下文占用的大小)
      • Historical success(在类似任务上的历史成功率)
    • EGATS 利用这些分数在攻击树中优先选择低成本、高价值的分支,剪枝超出上下文限制的路径。
  5. Evaluation – 在三个基准测试上运行 Excalibur 与基线代理,衡量任务完成率、被攻陷主机数量以及 LLM 令牌使用情况。

结果与发现

BenchmarkBaseline Avg. CompletionExcalibur CompletionRelative Gain
Simple CTF~55 %91 %+39 %
Multi‑step CTF~48 %84 %+46 %
GOAD AD (5 hosts)2 compromised4 compromised+100 %
  • Token efficiency: 难度感知剪枝将上下文溢出降低约 30 %,使 LLM 能在 token 限制内运行更久。
  • Model‑agnostic improvement: 在前沿 LLM(GPT‑4、Claude‑2、Llama‑2‑70B)上均表现出一致的提升,证明优势来源于规划,而非模型规模。
  • Failure reduction: 由于标准化工具层,Type A 失效几乎降至零;在集成 TDA 后,Type B 失效下降超过 70 %。

实际意义

  • 更可靠的自动化红队工具:安全团队可以采用 Excalibur‑style 代理持续探测内部资产,避免当前 LLM 机器人高误报率。
  • 成本效益高的渗透测试:通过避免浪费 token 消耗,组织可以在更便宜的 LLM API 上进行大规模评估,同时仍实现深度覆盖。
  • 其他领域的框架:难度感知规划范式可以迁移到 DevOps 中的 LLM 代理(例如自动化事件响应)、代码合成或数据管道编排等任务分支和上下文限制关键的场景。
  • 更好地与现有工具集成:类型化的工具与技能层自然契合安全框架(Metasploit、Nmap、BloodHound),简化在 CI/CD 流水线中部署,实现持续安全验证。

限制与未来工作

  • Domain specificity: 当前实现专注于网络层渗透测试;扩展到 Web 应用或云原生攻击面可能需要新的工具抽象。
  • Difficulty metric calibration: TDA 依赖于在作者基准上调优的启发式方法(例如视野估计);需要在多样化企业环境中进行更广泛的验证。
  • Real‑time adaptation: Excalibur 在执行前估计难度,但尚未在出现意外证据时即时调整——这是未来研究的有前景方向。
  • Human‑in‑the‑loop safety: 论文未涉及防止高度能力代理被恶意滥用的安全措施;将基于策略的约束集成进来是一个未解决的挑战。

作者

  • Gelei Deng
  • Yi Liu
  • Yuekang Li
  • Ruozhao Yang
  • Xiaofei Xie
  • Jie Zhang
  • Han Qiu
  • Tianwei Zhang

论文信息

  • arXiv ID: 2602.17622v1
  • 分类: cs.CR, cs.SE
  • 出版日期: February 19, 2026
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »