[Paper] LLMs 在代码漏洞分析中的概念验证

发布: 3周前 (2026年1月14日 GMT+8 00:16)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.08691v1

（请提供需要翻译的正文内容，我才能为您进行简体中文翻译。）

Overview

本文研究了现代大型语言模型（LLM）是否能够用于自动化 C/C++ 代码的核心安全任务——发现漏洞、评估其严重性，甚至生成补丁。通过在两个公开的漏洞数据集上测试面向代码的和通用的开源 LLM，作者表明基于 LLM 的分析是可行的，并且通过微调可以超越零‑shot 提示的效果。

数据集 – 作者使用了两个著名的 C/C++ 漏洞语料库：
- Big‑Vul – 包含带有 CVE 注释的真实世界易受攻击函数的集合。
- Vul‑Repair – 包含易受攻击代码片段及其人工编写补丁的配对。
模型 – 选取了五个 LLM 系列，每个系列都有一个面向代码的开源变体和一个通用的开源变体（例如 CodeLlama 与 Llama‑2）。
任务定义
- 漏洞识别：二分类（易受攻击 vs. 干净）。
- 严重性与访问复杂度预测：多分类，映射到 CVSS 字段。
- 补丁生成：序列到序列生成修复后的代码片段。
训练方式
- 微调：在任务特定的训练划分上进行全模型更新。
- 提示式：零样本（纯指令）和少样本（≤5 示例）提示，无权重更新。
评估 – 对检测/严重性使用标准分类指标（准确率、F1），对修复质量使用多种代码生成指标（CodeBLEU、CodeBERTScore、BLEU、ChrF）。

Fine‑tuning wins：在所有三个任务中，微调模型的准确率/F1 均高于任何零样本或少样本提示配置。
Code‑specialized models excel in low‑resource prompting：当仅提供少量示例时，经过代码数据训练的模型优于通用模型，尤其在更复杂的补丁生成任务上。
General‑purpose models close the gap after fine‑tuning：微调后，代码专用模型与通用模型之间的性能差距显著缩小，表明任务特定数据比预训练领域更为重要。
Metric mismatch：BLEU/ChrF 的高分并不总是与补丁的功能正确性相关，这凸显当前自动指标不足以评估安全关键的代码修复。

底线：该概念验证表明，通过适度的微调，开源大语言模型可以成为对抗软件漏洞的实用盟友，为更智能、面向开发者的安全工具打开了大门。