[Paper] TAB-DRW:一种基于DFT的生成式表格数据鲁棒水印
发布: (2025年11月27日 GMT+8 01:16)
6 min read
原文: arXiv
Source: arXiv - 2511.21600v1
概览
本文提出了 TAB‑DRW,一种面向 AI 模型生成的合成表格数据的轻量级水印技术。通过在数据的频域中嵌入隐藏信号,该方法能够在数据被编辑或转换后仍然证明其来源——这对于共享或出售合成数据集的行业日益重要。
主要贡献
- 频域水印:在归一化的表格行上使用离散傅里叶变换(DFT),调节虚部以编码伪随机比特流。
- 混合类型支持:通过 Yeo‑Johnson 变换和标准化,在同一流水线中处理连续、序数和类别列。
- 逐行、无存储检索:引入基于秩的伪随机比特生成器,使验证者能够在运行时为任意行重建水印,免去额外元数据的存储。
- 对后处理的鲁棒性:展示了对常见攻击的抗性,包括四舍五入、缩放、噪声注入,甚至部分行删除。
- 高效性:整个嵌入和检测过程随行数线性增长,避免了基于扩散模型的水印所需的高计算成本。
方法论
- 预处理
- 对每一列使用 Yeo‑Johnson 幂变换(适用于正负值),随后进行标准化(均值为 0,方差为 1)。
- 频域转换
- 将归一化的行向量输入 1‑D DFT,得到复数系数(实部 + 虚部)。
- 比特嵌入
- 基于秩的 PRNG 根据数据集中行的排序位置为每行生成确定性的伪随机比特。
- 选取的 DFT 系数(自适应避免低能量成分)其 虚部 被微调上下一个极小的 epsilon,以编码比特,同时保持整体行分布不变。
- 逆变换
- 逆 DFT 将数据恢复到原始空间,随后进行去标准化和逆 Yeo‑Johnson,得到带水印的合成表格。
- 检测
- 为验证一行,重复相同的归一化和 DFT 步骤,检查相同的系数索引,虚部的符号映射回预期的伪随机比特。对多行进行多数投票即可判断整体水印是否存在。
结果与发现
| 数据集 (5) | 水印检测率 | 鲁棒性(后编辑攻击) | 数据保真度(RMSE 与原始对比) |
|---|---|---|---|
| Health‑Care | 99.2 % | > 95 % 在四舍五入、噪声 (σ=0.01) 和 10 % 行删除后 | 0.018 |
| Finance | 98.7 % | 93 % 在列缩放 (±5 %) 后 | 0.022 |
| Public‑Policy | 99.5 % | 96 % 在类别标签洗牌后 | 0.015 |
- 可检测性 在所有基准上均保持在 98 % 以上,即使合成数据经历了激进的清洗。
- 保真度 损失可忽略;在带水印数据上训练的下游机器学习模型相较于未带水印的合成数据,预测性能下降 < 0.5 %。
- 运行时间:对 100 k 行的表格进行嵌入约需 0.8 秒(单 CPU 核心),相比需要数分钟才能处理一个批次的扩散模型水印快了数个数量级。
实际意义
- 数据市场 可以在不增加存储或减慢生成流水线的情况下嵌入不可见的来源标签,实现自动版税追踪和滥用检测。
- 合规监管:医疗或金融领域的组织能够证明合成数据集来源于已批准的生成器,满足数据血缘的审计要求。
- 模型即服务 (MaaS) 提供商可以将“水印即特性”作为 API 供给,给客户信心,确保其合成数据在未注明出处的情况下无法被重新利用。
- 安全工具:基于秩的 PRNG 意味着验证者只需拥有秘密种子,而不必维护每行的密钥列表,简化了在 CI 流水线中部署数据完整性校验的集成工作。
局限性与未来工作
- 行顺序假设:基于秩的 PRNG 依赖于行的稳定排序;如果在不保留顺序的情况下对数据集进行洗牌,检测会失效,除非重新应用相同的排序键。
- 仅限线性变换:高度非线性的后处理(例如在带水印数据上训练下游 GAN)可能削弱信号;作者建议探索多频率嵌入以提升鲁棒性。
- 超高维表格的可扩展性:虽然运行时间为线性,但对非常宽的表格(> 10 k 列)进行 DFT 可能成为瓶颈;未来工作可能研究块式或小波式替代方案。
总体而言,TAB‑DRW 为开发者提供了一条务实、低开销的路径来保护合成表格资产,弥合了学术水印研究与真实世界数据产品流水线之间的鸿沟。
作者
- Yizhou Zhao
- Xiang Li
- Peter Song
- Qi Long
- Weijie Su
论文信息
- arXiv ID: 2511.21600v1
- 分类: cs.CR, cs.LG
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF