[Paper] 面向随时有效的统计水印

发布: 3天前 (2026年2月20日 GMT+8 02:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.17608v1

概述

大型语言模型（LLMs）如今正在生成海量文本，区分 AI 生成的内容与人类撰写的散文正成为一项关键的安全与信任问题。论文 Towards Anytime-Valid Statistical Watermarking 引入了一种全新的统计水印方案，使您能够 在生成过程的任何时刻检测 AI 生成的文本，且不牺牲假设检验的严谨性。通过将最优抽样与基于 “e‑value” 的检验框架相结合，作者实现了比以往方法更快、更可靠的检测。

关键贡献

Anchored E‑Watermarking framework：首个使用 e‑values（检验超鞅）来保证在可选/提前停止情况下实现有效推断的水印方法。
Principled sampling distribution：引入一种“锚点”分布，以近似目标大语言模型，从而实现水印分布的最优选择。
Optimality guarantees：推导出能够最大化最坏情况对数增长率的 e‑value，并证明它能够使检测的期望停止时间最小化。
Empirical validation：在标准大语言模型水印基准上显示出平均令牌预算降低 13‑15 % 的可靠检测效果。
Unified theory：将统计假设检验、顺序分析和水印设计统一到一个连贯的数学框架中。

方法论

水印嵌入：从一个偏置分布中抽样 token，该分布微妙地偏向词表的一个子集（即“水印”）。该偏置使用一个锚点分布进行校准，锚点分布模拟 LLM 的真实输出概率。
E‑value 构造：对于每个生成的 token，方法计算一个 e‑value——本质上是水印分布与锚点分布之间的似然比。这些 e‑value 在 token 之间相乘，形成一个 测试超鞅。
随时有效检测：由于 e‑value 的乘积是超鞅，跨越检测阈值的概率（即出现 Type‑I 错误的概率）保持有界，即使观察者提前停止或重复检查。
最优停止分析：作者在最坏情况（对抗）模型下解析求解，使 e‑value 期望对数增长最大的水印分布，从而得到在检测前所需的最小期望 token 数。
仿真与基准评估：实验将新方案与现有的固定时域水印方法在合成和真实 LLM 输出（如 GPT‑2、LLaMA）上进行比较。

结果与发现

样本效率：平均而言，新方法相比最佳的先前水印基线，所需的 13‑15 % 更少的 token 即可达到 95 % 的检测置信度。
稳健的 I 类错误控制：即使检测器被允许在任意时刻停止（或在每个 token 后检查），假阳性率仍保持在名义的 5 % 水平，验证了 anytime‑valid 保证。
对抗攻击的韧性：由于锚分布近似真实模型，试图通过扰动 token 概率“洗掉”水印的攻击对检测能力影响有限。
可扩展性：计算 e‑values 的计算开销随生成 token 数线性增长，能够轻松融入典型的推理流水线。

实际意义

实时内容审核：平台可以在生成过程中即时标记 AI 生成的文本，一旦累积足够证据就停止分析，从而节省计算资源并降低延迟。
合规性与来源追溯：需要认证人为撰写内容的组织（如学术期刊、法律文件）可以嵌入水印，即使文本被编辑或截断仍能检测到。
开发者工具：SDK 可以提供一个简单的 detectWatermark(tokens) API，在任意时刻返回置信度分数，使其轻松集成到现有 LLM 服务中。
成本降低：通过削减检测所需的 token 预算，云服务提供商可以降低在生成过程中同时运行水印检查的费用，尤其是对长篇输出。
安全即设计：该框架的统计保证使其适用于对误报（I 类错误）必须严格控制的受监管环境。

限制与未来工作

Anchor distribution estimation：该方法假设能够获得目标 LLM 的 token 分布的良好近似；如果锚点质量不佳，检测效率会下降。
模型特定调优：最佳的水印参数（偏置强度、子集大小）仍需针对每个模型系列进行校准，这可能限制即插即用的部署。
对抗鲁棒性：虽然比之前的方案更具韧性，但能够大量查询模型的高级攻击者仍可能学会中和水印。
向多模态生成器的扩展：本文聚焦于文本；将基于 e‑value 的水印技术应用于图像或音频生成器仍是一个未解的挑战。

总体而言，Anchored E‑Watermarking 框架提供了一种在数学上可靠、在实践中高效的方式来监管 AI 生成内容，为更安全、更透明地部署强大的 LLM 开辟了道路。

作者

Baihe Huang
Eric Xu
Kannan Ramchandran
Jiantao Jiao
Michael I. Jordan

论文信息

arXiv ID: 2602.17608v1
分类: cs.LG, cs.AI, stat.ML
出版时间: 2026年2月19日
PDF: 下载 PDF

[Paper] 面向随时有效的统计水印

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求