[Paper] 当表格泄漏时:攻击 LLM-Based Tabular Data Generation 中的字符串记忆

发布: (2025年12月10日 GMT+8 02:06)
8 min read
原文: arXiv

Source: arXiv - 2512.08875v1

概览

大型语言模型(LLM)如今已被用于合成逼真的表格数据集——例如用于训练分析流水线的 CSV 文件或用于隐私保护的数据共享。本文揭示了一种细微但严重的隐私缺陷:当 LLM 生成包含数字字符串的行(例如信用卡号、ID、时间戳)时,可能会无意中复现它们在训练期间见过的完整数字序列。作者提出了一种“无盒”成员推断攻击,仅凭合成输出即可检测此类泄漏,并提出了轻量级防御措施,在保持数据有用性的同时阻止攻击。

主要贡献

  • 识别新的隐私风险:证明基于 LLM 的表格生成器会记忆并复述训练语料库中的数字字符串。
  • LevAtt 攻击:一种简单的黑盒成员推断方法,通过检查生成的数字字符串来判断特定训练记录是否被记忆。
  • 全面的实证研究:在微调的小模型(如 GPT‑Neo、LLaMA‑7B)和基于提示的大模型(如 GPT‑4、Claude)上评估 LevAtt,使用多样的公开表格基准。
  • 防御策略:提出两种缓解技术,其中包括一种新颖的 数字扰动采样,在生成过程中随机微调数字而不破坏表格的统计属性。
  • 效用‑隐私权衡分析:显示所提防御能够显著降低攻击成功率(常接近随机猜测),同时将下游模型性能(如分类准确率、回归 R²)保持在仅几百分点的损失范围内。

方法论

  1. 威胁模型 – 攻击者仅能看到 LLM 生成的合成表格。假设攻击者无法访问模型权重、提示或原始训练集。
  2. 攻击流程(LevAtt)
    • 提取:扫描每一生成的行,寻找连续的数字子串(例如 “12345678”)。
    • 哈希查找:将每个子串与训练数据集数字字段的公开哈希进行比对(哈希可以由任何泄露的片段或已知的公开子集构建)。
    • 决策规则:若子串匹配哈希条目,则将对应的原始记录标记为 成员(即模型记忆了该记录)。
  3. 数据集与模型 – 作者使用了 12 个公开表格语料库(UCI、OpenML、Kaggle),涵盖金融、健康和物联网领域。模型包括:
    • 在原始 CSV 上微调的 LLaMA‑7B、GPT‑Neo‑2.7B、T5‑base。
    • 使用少量示例进行提示式生成的 GPT‑3.5‑Turbo、GPT‑4、Claude‑2、Gemini‑Pro。
  4. 防御措施
    • 差分隐私微调(DP‑SGD)作为基线。
    • 数字扰动采样:在 token 采样阶段,以小概率 ε 将数字 token 替换为相邻的数字(±1),从而确保数值字段的整体分布保持不变。

结果与发现

模型 / 设置攻击成功率(精确度)效用下降 (Δ准确率)
微调的 LLaMA‑7B0.93(近乎完美)–0.4 %
GPT‑4(提示)0.78–0.2 %
Claude‑2(提示)0.71–0.3 %
DP‑SGD (ε=1.0)0.45–5.1 %
数字扰动 (ε=0.05)0.12–0.6 %
  • 泄漏普遍存在:即使是最先进的 LLM,也会对高熵标识符所在的行泄露高达 90 % 的完整数字字符串。
  • 无盒攻击有效:LevAtt 在无需任何模型查询的情况下,仅通过解析合成 CSV 就实现了近乎完美的成员分类。
  • 防御有效:所提的数字扰动将攻击成功率降至接近随机猜测,同时对下游模型性能的影响微乎其微(通常 <1 %)。
  • 差分隐私代价过高:传统的 DP‑SGD 能消除泄漏,但会导致显著的效用损失(>5 % 的准确率下降),因此轻量级扰动在许多流水线中更具实用性。

实际意义

  • 数据共享平台(如 OpenAI 的微调数据市场、合成数据供应商)必须在向客户发布之前审计生成的表格,检查是否存在数字记忆。
  • 合规团队在处理受监管标识符(PCI‑DSS、HIPAA)时,应将合成 CSV 与原始数据同等对待。使用简单的正则表达式扫描长数字串即可标记风险输出。
  • 构建合成数据流水线的开发者可以将数字扰动采样器作为 HuggingFace transformers 等库中默认 token 采样步骤的即插即用替代方案。
  • 模型即服务提供商可以公开一个 “隐私模式” 开关,自动启用扰动策略,在保真度与合规安全之间提供可调的权衡。
  • 安全审计员现在拥有了一个具体且可复现的攻击(LevAtt),可用于评估任何基于 LLM 的表格生成器的隐私保障,类似于对密码硬件进行侧信道测试的做法。

局限性与未来工作

  • 数字泄漏的范围:本研究聚焦于纯数字序列;混合字母数字标识符(如 UUID、哈希邮箱)未被评估,可能呈现不同的记忆模式。
  • 哈希可用性假设:LevAtt 需要训练数据数字字段的哈希。在实际场景中,攻击者可能需要获取或近似该哈希,这并非易事。
  • 数据集规模偏差:小规模、高熵数据集表现出更高的泄漏率;将分析扩展到拥有数百万行的工业级表格仍是未解之题。
  • 防御的通用化:数字扰动策略专为数字 token 设计;将类似的低开销扰动扩展到类别或自由文本字段仍需进一步研究。
  • 形式化隐私保证:未来工作可将扰动方法与可证明的保证(如 Rényi DP)结合,为合成表格发布提供可量化的风险度量。

作者

  • Joshua Ward
  • Bochao Gu
  • Chi-Hua Wang
  • Guang Cheng

论文信息

  • arXiv ID: 2512.08875v1
  • 分类: cs.LG, cs.AI
  • 发布日期: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »