[Paper] 双环代理框架用于自动化漏洞复现

发布: 3天前 (2026年2月5日 GMT+8 22:47)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.05721v1

Overview

本文介绍了 Cve2PoC，一种新颖的双环框架，利用大型语言模型（LLM）代理自动将 CVE 描述转化为可运行的概念验证（PoC）利用代码。通过将战略规划与战术代码生成分离，该系统显著降低了以往重现漏洞所需的人工工作量和专业知识。

双环路架构（Strategic Planner ↔ Tactical Executor ↔ Adaptive Refiner），将失败路由到相应的补救层级。
计划‑执行‑评估范式，首先创建高级攻击计划，然后逐步构建并验证 PoC 代码。
渐进式验证 在 Tactical Loop 中进行，能够在完整执行前提前发现语法或 API 使用错误。
实证验证 在两个大型基准上（SecBench.js – 617 CVE，PatchEval – 617 CVE），展示了最先进的复现率（分别为 82.9 % 和 54.3 %）。
以人为本的评估 确认生成的 PoC 在可读性和可复用性方面与人工编写的利用代码相匹配。

Strategic Planner – 一个大型语言模型（如 GPT‑4）解析 CVE 文本和目标代码库，提取漏洞语义（例如 “在 malloc 中的 use‑after‑free”），并生成结构化的攻击计划（步骤、所需原语、入口点）。
Tactical Executor – 第二个大型语言模型依据该计划逐步编写 PoC 代码片段。每写完一个片段后，轻量级沙箱会进行 渐进式验证（语法检查 → 单元测试 → 完整 exploit 运行）。
Adaptive Refiner – 评估模块检查沙箱输出。
- 若失败属于 代码层面（例如缺少导入、API 用法错误），循环停留在 Tactical 分支，细化代码片段。
- 若失败属于 策略层面（例如攻击向量未触发漏洞），系统返回 Strategic Planner，重新修订高层计划。
该过程重复进行，直至 PoC 成功复现漏洞，或达到超时/迭代上限。

关注点的分离避免了以往单循环 LLM 方法中常见的 “在仍在猜测攻击方式的同时调试代码” 的死胡同。

基准	# CVE	成功率 (Cve2PoC)	最佳基线	增益
SecBench.js	617	82.9 %	71.6 %	+11.3 %
PatchEval	617	54.3 %	33.9 %	+20.4 %

速度： 平均每个 CVE 成功 PoC 所需时间约为 2.3 分钟，比基线快约 30%。
代码质量： 人类评审者在 5 分制 Likert 量表上对生成的 PoC 进行评分；可读性（4.3）和可复用性（4.1）的得分在统计上与人工编写的利用代码无显著差异。
失败分布： 68 % 的失败在战术循环中得到解决，32 % 需要战略重新规划，验证了双循环划分的有效性。

语言范围： 当前实现聚焦于 JavaScript（SecBench.js）和 C/C++（PatchEval）。要扩展到其他生态系统（例如 Java、Rust），需要额外的提示工程和沙箱支持。
对 LLM 的依赖： 性能取决于底层 LLM 对 API 和安全原语的了解；过时或专有的库可能导致幻觉。
资源开销： 为每个细化步骤运行沙箱执行会消耗大量计算资源；未来工作可以探索静态分析的快捷方式，以更早地剪枝不太可能的路径。
对抗鲁棒性： 攻击者可能会提供格式错误的 CVE 文本以混淆规划器；加强解析阶段是一个开放的研究方向。

总体而言，Cve2PoC 证明了经过深思熟虑的 LLM 代理循环能够将过去手工编写漏洞利用的艺术转化为可扩展、可重复的流程——为更快速、更可靠的漏洞管理开辟了新途径。