[Paper] TAB-DRW：一种基于DFT的生成式表格数据鲁棒水印

发布: 5个月前 (2025年11月27日 GMT+8 01:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21600v1

概览

本文提出了 TAB‑DRW，一种面向 AI 模型生成的合成表格数据的轻量级水印技术。通过在数据的频域中嵌入隐藏信号，该方法能够在数据被编辑或转换后仍然证明其来源——这对于共享或出售合成数据集的行业日益重要。

主要贡献

频域水印：在归一化的表格行上使用离散傅里叶变换（DFT），调节虚部以编码伪随机比特流。
混合类型支持：通过 Yeo‑Johnson 变换和标准化，在同一流水线中处理连续、序数和类别列。
逐行、无存储检索：引入基于秩的伪随机比特生成器，使验证者能够在运行时为任意行重建水印，免去额外元数据的存储。
对后处理的鲁棒性：展示了对常见攻击的抗性，包括四舍五入、缩放、噪声注入，甚至部分行删除。
高效性：整个嵌入和检测过程随行数线性增长，避免了基于扩散模型的水印所需的高计算成本。

方法论

预处理
- 对每一列使用 Yeo‑Johnson 幂变换（适用于正负值），随后进行标准化（均值为 0，方差为 1）。
频域转换
- 将归一化的行向量输入 1‑D DFT，得到复数系数（实部 + 虚部）。
比特嵌入
- 基于秩的 PRNG 根据数据集中行的排序位置为每行生成确定性的伪随机比特。
- 选取的 DFT 系数（自适应避免低能量成分）其虚部被微调上下一个极小的 epsilon，以编码比特，同时保持整体行分布不变。
逆变换
- 逆 DFT 将数据恢复到原始空间，随后进行去标准化和逆 Yeo‑Johnson，得到带水印的合成表格。
检测
- 为验证一行，重复相同的归一化和 DFT 步骤，检查相同的系数索引，虚部的符号映射回预期的伪随机比特。对多行进行多数投票即可判断整体水印是否存在。

结果与发现

数据集 (5)	水印检测率	鲁棒性（后编辑攻击）	数据保真度（RMSE 与原始对比）
Health‑Care	99.2 %	> 95 % 在四舍五入、噪声 (σ=0.01) 和 10 % 行删除后	0.018
Finance	98.7 %	93 % 在列缩放 (±5 %) 后	0.022
Public‑Policy	99.5 %	96 % 在类别标签洗牌后	0.015

可检测性 在所有基准上均保持在 98 % 以上，即使合成数据经历了激进的清洗。
保真度 损失可忽略；在带水印数据上训练的下游机器学习模型相较于未带水印的合成数据，预测性能下降 < 0.5 %。
运行时间：对 100 k 行的表格进行嵌入约需 0.8 秒（单 CPU 核心），相比需要数分钟才能处理一个批次的扩散模型水印快了数个数量级。

实际意义

数据市场 可以在不增加存储或减慢生成流水线的情况下嵌入不可见的来源标签，实现自动版税追踪和滥用检测。
合规监管：医疗或金融领域的组织能够证明合成数据集来源于已批准的生成器，满足数据血缘的审计要求。
模型即服务 (MaaS) 提供商可以将“水印即特性”作为 API 供给，给客户信心，确保其合成数据在未注明出处的情况下无法被重新利用。
安全工具：基于秩的 PRNG 意味着验证者只需拥有秘密种子，而不必维护每行的密钥列表，简化了在 CI 流水线中部署数据完整性校验的集成工作。

局限性与未来工作

行顺序假设：基于秩的 PRNG 依赖于行的稳定排序；如果在不保留顺序的情况下对数据集进行洗牌，检测会失效，除非重新应用相同的排序键。
仅限线性变换：高度非线性的后处理（例如在带水印数据上训练下游 GAN）可能削弱信号；作者建议探索多频率嵌入以提升鲁棒性。
超高维表格的可扩展性：虽然运行时间为线性，但对非常宽的表格（> 10 k 列）进行 DFT 可能成为瓶颈；未来工作可能研究块式或小波式替代方案。

总体而言，TAB‑DRW 为开发者提供了一条务实、低开销的路径来保护合成表格资产，弥合了学术水印研究与真实世界数据产品流水线之间的鸿沟。

作者

Yizhou Zhao
Xiang Li
Peter Song
Qi Long
Weijie Su

论文信息

arXiv ID: 2511.21600v1
分类: cs.CR, cs.LG
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

开发稳健的世界模型推理对于大型语言模型（LLM）代理在复杂环境中进行规划和交互至关重要。虽然多轮交互……

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] 进步的代价：算法效率与 AI 推理成本下降

近年来，语言模型在高级基准上取得了巨大的进展，但这些进展在很大程度上只能通过使用更昂贵的模型来实现……

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…