[Paper] 通过训练动态理解代码模型的隐私风险：因果方法

发布: 1周前 (2025年12月9日 GMT+8 02:47)

7 min read

原文: arXiv

Source: arXiv - 2512.07814v1

概览

面向代码的大语言模型（LLM4Code）正成为开发者不可或缺的工具，但它们也继承了所训练的大规模开源代码库中的隐私风险。本文深入探讨了为何某些类型的个人可识别信息（PII）更容易被模型记忆并随后复现，并采用因果视角超越将 PII 视为单一整体的做法。

细粒度 PII 分类法： 构建了一个涵盖多种 PII 类别（IP 地址、电子邮件地址、API 密钥、密码等）的精心策划数据集，而不是仅使用单一的“PII”标签。
训练动态分析： 通过每个示例的损失和梯度统计，衡量模型在微调期间学习每个 PII 实例的速度和置信度。
结构因果模型（SCM）： 构建了一个 SCM，将可学习性（由训练动态捕获）与泄漏（模型复现 PII 的倾向）关联起来。
实证因果证据： 证明了可学习性对泄漏的因果效应在不同 PII 类型之间差异显著——例如，IP 地址表现出强正向效应，而加密密钥的效应则弱或几乎不存在。
防御指南： 提供了面向类型的可操作性洞见，用于设计针对性的缓解策略（如选择性数据清理、可学习性感知正则化）。

数据集构建 – 作者从公开的 GitHub 仓库中挖掘真实的 PII 实例，并将其标注为不同类别（网络标识符、凭证、个人联系方式等）。
模型微调 – 对两种代表性的 LLM4Code 系列（一个 350 M 参数模型和一个 2.7 B 参数模型）在包含 PII 数据集的相同代码语料上进行微调。
训练动态提取 – 对每个 PII 示例，团队记录了训练过程中的每一步损失、梯度范数和预测置信度。这些信号用作“模型学习该示例的难易程度”的代理。
泄漏探测 – 训练完成后，使用可能触发记忆的代码上下文对模型进行提示。生成输出中出现完全相同的 PII 字符串即计为一次泄漏。
因果分析 – 以提取的动态作为中介变量，构建结构因果模型，估计每种 PII 类型的可学习性对泄漏的平均处理效应（ATE），并控制令牌频率、长度等混杂因素。

PII 类型	可学习性（平均损失下降）	泄漏率（训练后）	因果效应
IP 地址	高（损失快速下降）	≈ 22 % 的实例泄漏	强正向
电子邮件地址	中等	≈ 12 % 泄漏	中等
API 密钥	中低	≈ 5 % 泄漏	弱
密码 / 私钥	低（学习缓慢）	≈ 1 % 泄漏	可忽略
模糊标识符（如用户名）	混合	4‑15 % 不等	不一致

关键要点：

未来的研究方向包括：扩展分类法以覆盖新兴 PII（如 OAuth 令牌），将因果分析应用于多模态代码模型，构建能够将可学习性监控集成到 CI/CD 流水线的自动化工具。