[Paper] 评估 LLMs 对真实和人工漏洞的一次性修补能力

发布: 2个月前 (2025年11月29日 GMT+8 02:03)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.23408v1

概览

本文研究了当今大型语言模型（LLM）在自动生成修补软件漏洞（导致安全漏洞）的补丁方面的表现。通过测试真实世界的缺陷和合成的“人工”漏洞，作者展示了 LLM 在修复真实漏洞方面明显更出色——且不同模型之间具有互补的优势。

全面基准：覆盖多个 LLM 系列（OpenAI GPT‑3/4、LLaMA、DeepSeek、Mistral），在真实与人工注入的漏洞混合集合上进行评估。
漏洞验证（PoV）执行框架：将生成的补丁与原始利用代码一起运行，以验证漏洞是否真正被修复。
实证证据：LLM 修复真实漏洞的可靠性高于人工漏洞。
重叠与互补性分析：揭示哪些漏洞被多个 LLM 修复，哪些仅被单一模型修复。
实践指南：为从业者提供选择和组合 LLM 以最大化自动补丁覆盖率的建议。

数据集构建
- 真实漏洞：150 条公开披露且可复现利用代码的 CVE。
- 人工漏洞：150 条使用变异引擎注入到开源项目的合成缺陷，模拟常见安全模式（如缓冲区溢出、SQL 注入）。
LLM 提示
- 使用统一的“一次性”提示：模型接收易受攻击的源文件以及简要的利用描述，要求返回修补后的版本。
- 不进行微调或多轮交互；研究聚焦于每个模型的开箱即用能力。
补丁验证
- 作者编译补丁代码并运行原始 PoV 测试套件。
- 仅当 PoV 测试失败（即利用不再起作用）且程序的原有功能保持完整（通过回归测试检查）时，补丁才算成功。
指标
- 补丁成功率（修复的漏洞比例）。
- 重叠度：多个模型共同修复的漏洞比例。
- 互补性：仅由单一模型修复的漏洞。

模型	对真实 CVE 的成功率	对人工漏洞的成功率	重叠度（≥2 模型）	唯一修复（仅此模型）
GPT‑4	68 %	42 %	31 %	12 %
GPT‑3.5	55 %	38 %	28 %	9 %
LLaMA‑2‑13B	48 %	30 %	22 %	7 %
DeepSeek‑7B	45 %	28 %	20 %	6 %
Mistral‑7B	50 %	33 %	24 %	8 %

真实 > 人工：所有模型在真实 CVE 上的表现比人工漏洞高出 15‑30 %，说明真实漏洞的自然上下文和代码模式有助于 LLM 生成正确的修复。
模型差异：没有单一模型能够全面领先；许多漏洞只有一个模型成功修复，凸显了互补性。
互补集成：将前三名模型（GPT‑4、GPT‑3.5、Mistral）组合使用，可将真实漏洞的整体覆盖率提升至 约 82 %，而单独使用 GPT‑4 仅为 68 %。

自动化分流流水线：安全团队可以将 LLM 驱动的一次性补丁生成集成到首道防线，自动产出候选补丁，再由人工审查。
模型选择重要：仅选用单一“最佳” LLM 可能导致大量漏洞未被修复；轻量级集成（如 GPT‑4 + Mistral）可在计算成本略增的情况下显著提升覆盖率。
聚焦真实代码：让模型接触真实代码库的训练或提示策略（而非仅合成示例）更有可能产出高质量补丁。
持续集成：PoV 执行框架可接入 CI 流水线，自动拒绝未通过利用测试的补丁，确保只有经过验证的修复被合并。
成本‑收益平衡：由于 GPT‑4 达到最高绝对成功率，预算紧张的组织可以先使用 GPT‑3.5 或开源替代（LLaMA、Mistral），仅在最棘手的情况调用更大的模型。

结论：LLM 已经能够自动修复许多真实的安全缺陷，尤其在采用互补集成时表现更佳。随着提示技术和模型能力的进步，漏洞修复的自动化程度将进一步提升，使 LLM 辅助补丁成为当今 DevSecOps 流水线的实用工具。