[Paper] 揭示与防御漏洞预测模型中的 Membership Leakage
发布: (2025年12月9日 GMT+8 14:40)
7 min read
原文: arXiv
Source: arXiv - 2512.08291v1
概览
本文研究了机器学习模型在预测软件漏洞时的隐藏隐私风险:成员推断攻击 (MIAs),该攻击可以揭示特定代码片段是否曾是模型训练集的一部分。通过系统评估多种流行的神经网络结构(LSTM、BiGRU、CodeBERT)以及不同的输出信号,作者展示了这些模型可能泄露敏感信息。他们还提出了一种轻量级防御——基于噪声的成员推断防御 (NMID),该防御在几乎不影响预测准确性的前提下,大幅降低了攻击成功率。
关键贡献
- 首次对漏洞预测 (VP) 模型进行全面的 MIA 研究,覆盖多种神经结构和特征组合。
- 实证证据表明 logits 和 loss 值是代码分析任务中最易被利用的成员泄漏信号。
- 设计 NMID,一种简单的输出掩码与高斯噪声注入模块,可直接嵌入任意 VP 模型。
- 广泛评估显示 NMID 能将攻击 AUC 从约 1.0 降至 < 0.65,且对模型的漏洞检测性能影响微乎其微。
- 威胁模型阐述针对现实的黑盒和灰盒场景,仅需观察预测输出即可进行攻击。
方法论
- 威胁模型 – 攻击者可以查询已部署的 VP 模型并观察其输出(如预测概率、logits、loss),不需要内部权重(黑盒),但攻击者也可能知道模型结构(灰盒)。
- 目标模型 – 在大型开源代码库上训练了三种代表性的神经 VP 模型:
- 基于 LSTM 的序列模型
- 基于 BiGRU 的序列模型
- CodeBERT(在源代码上预训练的 Transformer)
- 攻击特征 – 对每次查询,攻击者提取以下一种或多种特征:原始 logits、softmax 置信度、loss 值以及嵌入向量。
- 成员推断 – 使用影子数据集训练一个二分类器(通常是浅层 MLP),根据提取的特征区分“成员”和“非成员”。
- 防御 (NMID) – 在返回输出之前,VP 模型将结果通过 NMID 处理,NMID:
- 掩蔽输出向量中最敏感的维度;
- 添加经过校准的高斯噪声(σ 经过调节以保持实用性)。
- 评估指标 – 攻击成功度使用 ROC 曲线下面积 (AUC) 衡量;模型实用性使用标准 VP 指标(Precision、Recall、F1‑score)评估。
结果与发现
| 模型 | 使用特征 | 攻击 AUC(无防御) |
|---|---|---|
| LSTM | Logits | 0.98 |
| BiGRU | Loss | 0.97 |
| CodeBERT | Logits | 0.99 |
- Logits 和 loss 始终产生最高的 AUC,证实它们泄露了最多的成员信息。
- 仅使用嵌入的攻击 表现不佳(AUC ≈ 0.55),说明原始表示较难被利用。
- NMID 效果 – 在 σ = 0.2 的设置下,攻击 AUC 降至 0.62–0.66(所有模型),而 VP 的 F1‑score 下降 < 2 %。
- 实用性‑隐私权衡 – 增大噪声进一步降低 AUC,但会开始削弱检测准确率;作者发现 σ = 0.2–0.3 是大多数情况下的最佳平衡点。
实际意义
- 安全工具供应商 应将模型输出(尤其是 logits 与 loss)视为潜在敏感信息,并在通过 API 暴露前考虑掩码或噪声注入。
- CI/CD 流水线 在对专有代码自动运行 VP 模型时,可通过 NMID 降低泄露训练代码片段的风险。
- 合规性 – 处理受监管代码(如医疗设备固件)的组织可利用 NMID 实现隐私‑by‑design,且不牺牲缺陷检测能力。
- 开源模型共享 – 发布预训练 VP 模型时,可附带已启用 NMID 的检查点,为下游用户提供即插即用的隐私防护。
- 通用化 – 该方法足够轻量,可推广至其他代码分析任务(如代码克隆检测、缺陷预测),这些任务同样可能出现类似泄漏模式。
局限性与未来工作
- 数据集范围 – 实验仅在少数大型开源仓库上进行,针对高度专有或行业特定代码库的结果可能不同。
- 攻击成熟度 – 本研究聚焦于标准的影子模型攻击;未探讨会微调分类器或利用侧信道信息的自适应对手。
- 噪声校准 – NMID 依赖手动选择高斯噪声尺度;自动化的隐私预算(如差分隐私)或能提供更强的理论保证。
- 模型类型 – 仅评估了三种神经结构;未来工作应考察更新的图结构或混合模型,它们可能呈现不同的泄漏特性。
总体而言,本文揭示了 AI 驱动的软件安全领域中被忽视的隐私向量,并提供了一种务实、低开销的防御方案,开发者可以立即采纳。
作者
- Yihan Liao
- Jacky Keung
- Xiaoxue Ma
- Jingyu Zhang
- Yicheng Sun
论文信息
- arXiv ID: 2512.08291v1
- 分类: cs.CR, cs.SE
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF