[Paper] 当表格泄漏时:攻击 LLM-Based Tabular Data Generation 中的字符串记忆
发布: (2025年12月10日 GMT+8 02:06)
8 min read
原文: arXiv
Source: arXiv - 2512.08875v1
概览
大型语言模型(LLM)如今已被用于合成逼真的表格数据集——例如用于训练分析流水线的 CSV 文件或用于隐私保护的数据共享。本文揭示了一种细微但严重的隐私缺陷:当 LLM 生成包含数字字符串的行(例如信用卡号、ID、时间戳)时,可能会无意中复现它们在训练期间见过的完整数字序列。作者提出了一种“无盒”成员推断攻击,仅凭合成输出即可检测此类泄漏,并提出了轻量级防御措施,在保持数据有用性的同时阻止攻击。
主要贡献
- 识别新的隐私风险:证明基于 LLM 的表格生成器会记忆并复述训练语料库中的数字字符串。
- LevAtt 攻击:一种简单的黑盒成员推断方法,通过检查生成的数字字符串来判断特定训练记录是否被记忆。
- 全面的实证研究:在微调的小模型(如 GPT‑Neo、LLaMA‑7B)和基于提示的大模型(如 GPT‑4、Claude)上评估 LevAtt,使用多样的公开表格基准。
- 防御策略:提出两种缓解技术,其中包括一种新颖的 数字扰动采样,在生成过程中随机微调数字而不破坏表格的统计属性。
- 效用‑隐私权衡分析:显示所提防御能够显著降低攻击成功率(常接近随机猜测),同时将下游模型性能(如分类准确率、回归 R²)保持在仅几百分点的损失范围内。
方法论
- 威胁模型 – 攻击者仅能看到 LLM 生成的合成表格。假设攻击者无法访问模型权重、提示或原始训练集。
- 攻击流程(LevAtt)
- 提取:扫描每一生成的行,寻找连续的数字子串(例如 “12345678”)。
- 哈希查找:将每个子串与训练数据集数字字段的公开哈希进行比对(哈希可以由任何泄露的片段或已知的公开子集构建)。
- 决策规则:若子串匹配哈希条目,则将对应的原始记录标记为 成员(即模型记忆了该记录)。
- 数据集与模型 – 作者使用了 12 个公开表格语料库(UCI、OpenML、Kaggle),涵盖金融、健康和物联网领域。模型包括:
- 在原始 CSV 上微调的 LLaMA‑7B、GPT‑Neo‑2.7B、T5‑base。
- 使用少量示例进行提示式生成的 GPT‑3.5‑Turbo、GPT‑4、Claude‑2、Gemini‑Pro。
- 防御措施 –
- 差分隐私微调(DP‑SGD)作为基线。
- 数字扰动采样:在 token 采样阶段,以小概率 ε 将数字 token 替换为相邻的数字(±1),从而确保数值字段的整体分布保持不变。
结果与发现
| 模型 / 设置 | 攻击成功率(精确度) | 效用下降 (Δ准确率) |
|---|---|---|
| 微调的 LLaMA‑7B | 0.93(近乎完美) | –0.4 % |
| GPT‑4(提示) | 0.78 | –0.2 % |
| Claude‑2(提示) | 0.71 | –0.3 % |
| DP‑SGD (ε=1.0) | 0.45 | –5.1 % |
| 数字扰动 (ε=0.05) | 0.12 | –0.6 % |
- 泄漏普遍存在:即使是最先进的 LLM,也会对高熵标识符所在的行泄露高达 90 % 的完整数字字符串。
- 无盒攻击有效:LevAtt 在无需任何模型查询的情况下,仅通过解析合成 CSV 就实现了近乎完美的成员分类。
- 防御有效:所提的数字扰动将攻击成功率降至接近随机猜测,同时对下游模型性能的影响微乎其微(通常 <1 %)。
- 差分隐私代价过高:传统的 DP‑SGD 能消除泄漏,但会导致显著的效用损失(>5 % 的准确率下降),因此轻量级扰动在许多流水线中更具实用性。
实际意义
- 数据共享平台(如 OpenAI 的微调数据市场、合成数据供应商)必须在向客户发布之前审计生成的表格,检查是否存在数字记忆。
- 合规团队在处理受监管标识符(PCI‑DSS、HIPAA)时,应将合成 CSV 与原始数据同等对待。使用简单的正则表达式扫描长数字串即可标记风险输出。
- 构建合成数据流水线的开发者可以将数字扰动采样器作为 HuggingFace
transformers等库中默认 token 采样步骤的即插即用替代方案。 - 模型即服务提供商可以公开一个 “隐私模式” 开关,自动启用扰动策略,在保真度与合规安全之间提供可调的权衡。
- 安全审计员现在拥有了一个具体且可复现的攻击(LevAtt),可用于评估任何基于 LLM 的表格生成器的隐私保障,类似于对密码硬件进行侧信道测试的做法。
局限性与未来工作
- 数字泄漏的范围:本研究聚焦于纯数字序列;混合字母数字标识符(如 UUID、哈希邮箱)未被评估,可能呈现不同的记忆模式。
- 哈希可用性假设:LevAtt 需要训练数据数字字段的哈希。在实际场景中,攻击者可能需要获取或近似该哈希,这并非易事。
- 数据集规模偏差:小规模、高熵数据集表现出更高的泄漏率;将分析扩展到拥有数百万行的工业级表格仍是未解之题。
- 防御的通用化:数字扰动策略专为数字 token 设计;将类似的低开销扰动扩展到类别或自由文本字段仍需进一步研究。
- 形式化隐私保证:未来工作可将扰动方法与可证明的保证(如 Rényi DP)结合,为合成表格发布提供可量化的风险度量。
作者
- Joshua Ward
- Bochao Gu
- Chi-Hua Wang
- Guang Cheng
论文信息
- arXiv ID: 2512.08875v1
- 分类: cs.LG, cs.AI
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF