[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测

发布: (2026年3月19日 GMT+8 01:38)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17974v1

Overview

该论文解决了机器学习驱动的安全领域的一个核心瓶颈:缺乏大规模、真实的数据集,能够反映漏洞在全栈代码仓库中的出现方式。通过自动向真实的开源项目注入真实的 bug 并生成可复现的漏洞利用(PoV)示例,作者创建了可扩展的、面向仓库级别的基准,可用于训练和评估下一代漏洞检测器。

关键贡献

  • Automated benchmark generator 在实时开源代码库中插入多样且真实的漏洞,同时保持可构建性和执行语义。
  • Synthetic PoV exploit synthesis 为每个注入的缺陷生成端到端、可复现的攻击,提供精确的真实标签。
  • Adversarial co‑evolution framework 通过漏洞注入代理与检测代理的交替迭代,使双方相互提升,模拟攻击者与防御者之间的军备竞赛。
  • Extensive empirical evaluation 表明生成的数据集可扩展至数千个代码库,并捕获函数中心语料库中缺失的跨过程、跨文件交互。
  • Open‑source tooling and dataset release 促进可重复性并推动社区广泛采用。

方法论

  1. 仓库收集 – 爬虫收集大量流行的 GitHub 仓库,这些仓库能够编译并通过它们自己的测试套件。
  2. 漏洞注入引擎 – 使用已知 CWE 模式目录(例如,缓冲区溢出、使用后释放、SQL 注入),引擎自动变异源文件,添加或修改代码片段,并更新构建脚本以保持项目可构建。
  3. PoV 漏洞利用合成 – 对于每个注入的漏洞,轻量级符号执行器或模糊测试工具生成触发漏洞的最小输入,生成可复现的 PoV 脚本(例如单元测试或利用二进制文件)。
  4. 标签生成 – 注入点、受影响的函数/文件以及 PoV 被存储为精确注释,从而在无需人工努力的情况下得到完整标注的数据集。
  5. 对抗性协同进化循环 – 注入模型(“攻击者”)提出新的漏洞实例;检测模型(“防御者”)尝试标记它们。检测错误的案例被反馈回去,以改进两者模型,提升对自适应攻击的鲁棒性。

该流水线已容器化,可在普通硬件上运行,并可安排定期刷新基准,随着新仓库的出现持续更新。

结果与发现

  • 规模: 系统在 500 多个仓库中生成了超过 3,000 条有漏洞的提交,较最大的人工作 repo‑level 基准提升了 10 倍。
  • 真实度: 92 % 的注入漏洞能够成功编译,87 % 的 PoV 在变异代码上成功执行,确认了功能上的真实性。
  • 检测缺口: 最先进的 repo‑level 漏洞检测器(例如 DeepVuln、CodeBERT‑Vul)漏检了 68 % 的新注入漏洞,凸显出显著的泛化差距。
  • 对抗性收益: 经过五轮共同进化后,检测模型在生成集合上的召回率从 32 % 提升至 58 %,而注入模型学会生成更难检测的模式,展示了对抗赛设置的有效性。

实际意义

  • 训练更好的模型: 基于机器学习的安全工具开发者现在可以在反映真实构建流水线、跨文件数据流和可利用性的数据集上进行训练,从而使检测器在生产代码库中开箱即用。
  • 持续基准测试: 组织可以将生成器集成到 CI 流水线中,自动评估自家的漏洞扫描器在新鲜、真实威胁下的表现。
  • 红队自动化: 安全团队可以使用注入引擎在代码中模拟“未知”漏洞,测试事件响应和补丁流程,而无需暴露真实漏洞。
  • 研究加速: 开放数据集降低了学术界和工业界研究者的入门门槛,促进可复现的比较并加快新检测算法的迭代。

限制与未来工作

  • Synthetic Bias: 尽管注入的漏洞遵循已知的 CWE 模式,但它们可能无法捕捉人类攻击者的全部创造力,可能导致模型偏向已知缺陷特征。
  • Language Coverage: 当前实现侧重于 C/C++ 项目;将其扩展到托管语言(Java、Python)以及混合语言生态系统仍是未来工作。
  • Exploit Fidelity: PoV 生成依赖轻量级符号执行;尚未合成高度复杂的多阶段利用(例如 ROP 链)。
  • Adversarial Loop Cost: 共进化过程计算密集;要扩展到数百万次提交,需要分布式训练策略和更智能的抽样。

作者发布生成器和第一批数据集,邀请社区解决这些不足,并推动仓库级漏洞检测的前沿。

作者

  • Amine Lbath

论文信息

  • arXiv ID: 2603.17974v1
  • 分类: cs.SE, cs.AI
  • 发布日期: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »