[Paper] 评估 LLMs 对真实和人工漏洞的一次性修补能力

发布: (2025年11月29日 GMT+8 02:03)
7 min read
原文: arXiv

Source: arXiv - 2511.23408v1

概览

本文研究了当今大型语言模型(LLM)在自动生成修补软件漏洞(导致安全漏洞)的补丁方面的表现。通过测试真实世界的缺陷和合成的“人工”漏洞,作者展示了 LLM 在修复真实漏洞方面明显更出色——且不同模型之间具有互补的优势。

主要贡献

  • 全面基准:覆盖多个 LLM 系列(OpenAI GPT‑3/4、LLaMA、DeepSeek、Mistral),在真实与人工注入的漏洞混合集合上进行评估。
  • 漏洞验证(PoV)执行框架:将生成的补丁与原始利用代码一起运行,以验证漏洞是否真正被修复。
  • 实证证据:LLM 修复真实漏洞的可靠性高于人工漏洞。
  • 重叠与互补性分析:揭示哪些漏洞被多个 LLM 修复,哪些仅被单一模型修复。
  • 实践指南:为从业者提供选择和组合 LLM 以最大化自动补丁覆盖率的建议。

方法论

  1. 数据集构建

    • 真实漏洞:150 条公开披露且可复现利用代码的 CVE。
    • 人工漏洞:150 条使用变异引擎注入到开源项目的合成缺陷,模拟常见安全模式(如缓冲区溢出、SQL 注入)。
  2. LLM 提示

    • 使用统一的“一次性”提示:模型接收易受攻击的源文件以及简要的利用描述,要求返回修补后的版本。
    • 不进行微调或多轮交互;研究聚焦于每个模型的开箱即用能力。
  3. 补丁验证

    • 作者编译补丁代码并运行原始 PoV 测试套件。
    • 仅当 PoV 测试失败(即利用不再起作用)程序的原有功能保持完整(通过回归测试检查)时,补丁才算成功。
  4. 指标

    • 补丁成功率(修复的漏洞比例)。
    • 重叠度:多个模型共同修复的漏洞比例。
    • 互补性:仅由单一模型修复的漏洞。

结果与发现

模型对真实 CVE 的成功率对人工漏洞的成功率重叠度(≥2 模型)唯一修复(仅此模型)
GPT‑468 %42 %31 %12 %
GPT‑3.555 %38 %28 %9 %
LLaMA‑2‑13B48 %30 %22 %7 %
DeepSeek‑7B45 %28 %20 %6 %
Mistral‑7B50 %33 %24 %8 %
  • 真实 > 人工:所有模型在真实 CVE 上的表现比人工漏洞高出 15‑30 %,说明真实漏洞的自然上下文和代码模式有助于 LLM 生成正确的修复。
  • 模型差异:没有单一模型能够全面领先;许多漏洞只有一个模型成功修复,凸显了互补性。
  • 互补集成:将前三名模型(GPT‑4、GPT‑3.5、Mistral)组合使用,可将真实漏洞的整体覆盖率提升至 约 82 %,而单独使用 GPT‑4 仅为 68 %。

实际意义

  • 自动化分流流水线:安全团队可以将 LLM 驱动的一次性补丁生成集成到首道防线,自动产出候选补丁,再由人工审查。
  • 模型选择重要:仅选用单一“最佳” LLM 可能导致大量漏洞未被修复;轻量级集成(如 GPT‑4 + Mistral)可在计算成本略增的情况下显著提升覆盖率。
  • 聚焦真实代码:让模型接触真实代码库的训练或提示策略(而非仅合成示例)更有可能产出高质量补丁。
  • 持续集成:PoV 执行框架可接入 CI 流水线,自动拒绝未通过利用测试的补丁,确保只有经过验证的修复被合并。
  • 成本‑收益平衡:由于 GPT‑4 达到最高绝对成功率,预算紧张的组织可以先使用 GPT‑3.5 或开源替代(LLaMA、Mistral),仅在最棘手的情况调用更大的模型。

局限性与未来工作

  • 仅一次性提示:研究未探索多轮交互或迭代细化,这可能进一步提升成功率。
  • 合成漏洞的真实性:尽管人工漏洞遵循常见模式,但仍可能缺乏真实漏洞的细微上下文,导致“真实 vs. 人工”差距被放大。
  • 对大型代码库的可扩展性:实验局限于相对较小的函数;处理多文件项目和复杂构建系统仍是未解挑战。
  • 生成补丁的安全性:本文侧重功能正确性;未来工作应评估 LLM 补丁是否会引入新的、微妙的安全问题。

结论:LLM 已经能够自动修复许多真实的安全缺陷,尤其在采用互补集成时表现更佳。随着提示技术和模型能力的进步,漏洞修复的自动化程度将进一步提升,使 LLM 辅助补丁成为当今 DevSecOps 流水线的实用工具。

作者

  • Aayush Garg
  • Zanis Ali Khan
  • Renzo Degiovanni
  • Qiang Tang

论文信息

  • arXiv ID: 2511.23408v1
  • 分类: cs.CR, cs.AI, cs.SE
  • 发布日期: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »