[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测

发布: 1天前 (2026年3月19日 GMT+8 01:38)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17974v1

Overview

该论文解决了机器学习驱动的安全领域的一个核心瓶颈：缺乏大规模、真实的数据集，能够反映漏洞在全栈代码仓库中的出现方式。通过自动向真实的开源项目注入真实的 bug 并生成可复现的漏洞利用（PoV）示例，作者创建了可扩展的、面向仓库级别的基准，可用于训练和评估下一代漏洞检测器。

Automated benchmark generator 在实时开源代码库中插入多样且真实的漏洞，同时保持可构建性和执行语义。
Synthetic PoV exploit synthesis 为每个注入的缺陷生成端到端、可复现的攻击，提供精确的真实标签。
Adversarial co‑evolution framework 通过漏洞注入代理与检测代理的交替迭代，使双方相互提升，模拟攻击者与防御者之间的军备竞赛。
Extensive empirical evaluation 表明生成的数据集可扩展至数千个代码库，并捕获函数中心语料库中缺失的跨过程、跨文件交互。
Open‑source tooling and dataset release 促进可重复性并推动社区广泛采用。

仓库收集 – 爬虫收集大量流行的 GitHub 仓库，这些仓库能够编译并通过它们自己的测试套件。
漏洞注入引擎 – 使用已知 CWE 模式目录（例如，缓冲区溢出、使用后释放、SQL 注入），引擎自动变异源文件，添加或修改代码片段，并更新构建脚本以保持项目可构建。
PoV 漏洞利用合成 – 对于每个注入的漏洞，轻量级符号执行器或模糊测试工具生成触发漏洞的最小输入，生成可复现的 PoV 脚本（例如单元测试或利用二进制文件）。
标签生成 – 注入点、受影响的函数/文件以及 PoV 被存储为精确注释，从而在无需人工努力的情况下得到完整标注的数据集。
对抗性协同进化循环 – 注入模型（“攻击者”）提出新的漏洞实例；检测模型（“防御者”）尝试标记它们。检测错误的案例被反馈回去，以改进两者模型，提升对自适应攻击的鲁棒性。

该流水线已容器化，可在普通硬件上运行，并可安排定期刷新基准，随着新仓库的出现持续更新。

规模: 系统在 500 多个仓库中生成了超过 3,000 条有漏洞的提交，较最大的人工作 repo‑level 基准提升了 10 倍。
真实度: 92 % 的注入漏洞能够成功编译，87 % 的 PoV 在变异代码上成功执行，确认了功能上的真实性。
检测缺口: 最先进的 repo‑level 漏洞检测器（例如 DeepVuln、CodeBERT‑Vul）漏检了 68 % 的新注入漏洞，凸显出显著的泛化差距。
对抗性收益: 经过五轮共同进化后，检测模型在生成集合上的召回率从 32 % 提升至 58 %，而注入模型学会生成更难检测的模式，展示了对抗赛设置的有效性。

训练更好的模型： 基于机器学习的安全工具开发者现在可以在反映真实构建流水线、跨文件数据流和可利用性的数据集上进行训练，从而使检测器在生产代码库中开箱即用。
持续基准测试： 组织可以将生成器集成到 CI 流水线中，自动评估自家的漏洞扫描器在新鲜、真实威胁下的表现。
红队自动化： 安全团队可以使用注入引擎在代码中模拟“未知”漏洞，测试事件响应和补丁流程，而无需暴露真实漏洞。
研究加速： 开放数据集降低了学术界和工业界研究者的入门门槛，促进可复现的比较并加快新检测算法的迭代。

作者发布生成器和第一批数据集，邀请社区解决这些不足，并推动仓库级漏洞检测的前沿。