[Paper] 面向随时有效的统计水印

发布: (2026年2月20日 GMT+8 02:32)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.17608v1

概述

大型语言模型(LLMs)如今正在生成海量文本,区分 AI 生成的内容与人类撰写的散文正成为一项关键的安全与信任问题。论文 Towards Anytime-Valid Statistical Watermarking 引入了一种全新的统计水印方案,使您能够 在生成过程的任何时刻检测 AI 生成的文本,且不牺牲假设检验的严谨性。通过将最优抽样与基于 “e‑value” 的检验框架相结合,作者实现了比以往方法更快、更可靠的检测。

关键贡献

  • Anchored E‑Watermarking framework:首个使用 e‑values(检验超鞅)来保证在可选/提前停止情况下实现有效推断的水印方法。
  • Principled sampling distribution:引入一种“锚点”分布,以近似目标大语言模型,从而实现水印分布的最优选择。
  • Optimality guarantees:推导出能够最大化最坏情况对数增长率的 e‑value,并证明它能够使检测的期望停止时间最小化。
  • Empirical validation:在标准大语言模型水印基准上显示出平均令牌预算降低 13‑15 % 的可靠检测效果。
  • Unified theory:将统计假设检验、顺序分析和水印设计统一到一个连贯的数学框架中。

方法论

  1. 水印嵌入:从一个 偏置 分布中抽样 token,该分布微妙地偏向词表的一个子集(即“水印”)。该偏置使用一个 锚点 分布进行校准,锚点分布模拟 LLM 的真实输出概率。
  2. E‑value 构造:对于每个生成的 token,方法计算一个 e‑value——本质上是水印分布与锚点分布之间的似然比。这些 e‑value 在 token 之间相乘,形成一个 测试超鞅
  3. 随时有效检测:由于 e‑value 的乘积是超鞅,跨越检测阈值的概率(即出现 Type‑I 错误的概率)保持有界,即使观察者提前停止或重复检查。
  4. 最优停止分析:作者在最坏情况(对抗)模型下解析求解,使 e‑value 期望对数增长最大的水印分布,从而得到在检测前所需的最小期望 token 数。
  5. 仿真与基准评估:实验将新方案与现有的固定时域水印方法在合成和真实 LLM 输出(如 GPT‑2、LLaMA)上进行比较。

结果与发现

  • 样本效率:平均而言,新方法相比最佳的先前水印基线,所需的 13‑15 % 更少的 token 即可达到 95 % 的检测置信度。
  • 稳健的 I 类错误控制:即使检测器被允许在任意时刻停止(或在每个 token 后检查),假阳性率仍保持在名义的 5 % 水平,验证了 anytime‑valid 保证。
  • 对抗攻击的韧性:由于锚分布近似真实模型,试图通过扰动 token 概率“洗掉”水印的攻击对检测能力影响有限。
  • 可扩展性:计算 e‑values 的计算开销随生成 token 数线性增长,能够轻松融入典型的推理流水线。

实际意义

  • 实时内容审核:平台可以在生成过程中即时标记 AI 生成的文本,一旦累积足够证据就停止分析,从而节省计算资源并降低延迟。
  • 合规性与来源追溯:需要认证人为撰写内容的组织(如学术期刊、法律文件)可以嵌入水印,即使文本被编辑或截断仍能检测到。
  • 开发者工具:SDK 可以提供一个简单的 detectWatermark(tokens) API,在任意时刻返回置信度分数,使其轻松集成到现有 LLM 服务中。
  • 成本降低:通过削减检测所需的 token 预算,云服务提供商可以降低在生成过程中同时运行水印检查的费用,尤其是对长篇输出。
  • 安全即设计:该框架的统计保证使其适用于对误报(I 类错误)必须严格控制的受监管环境。

限制与未来工作

  • Anchor distribution estimation:该方法假设能够获得目标 LLM 的 token 分布的良好近似;如果锚点质量不佳,检测效率会下降。
  • 模型特定调优:最佳的水印参数(偏置强度、子集大小)仍需针对每个模型系列进行校准,这可能限制即插即用的部署。
  • 对抗鲁棒性:虽然比之前的方案更具韧性,但能够大量查询模型的高级攻击者仍可能学会中和水印。
  • 向多模态生成器的扩展:本文聚焦于文本;将基于 e‑value 的水印技术应用于图像或音频生成器仍是一个未解的挑战。

总体而言,Anchored E‑Watermarking 框架提供了一种在数学上可靠、在实践中高效的方式来监管 AI 生成内容,为更安全、更透明地部署强大的 LLM 开辟了道路。

作者

  • Baihe Huang
  • Eric Xu
  • Kannan Ramchandran
  • Jiantao Jiao
  • Michael I. Jordan

论文信息

  • arXiv ID: 2602.17608v1
  • 分类: cs.LG, cs.AI, stat.ML
  • 出版时间: 2026年2月19日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »