[Paper] 生成式 AI 代理中的差分隐私:分析与最优权衡
Source: arXiv - 2603.17902v1
请提供您希望翻译成简体中文的具体文本内容,我将为您进行翻译并保留原有的格式、Markdown 语法以及技术术语。谢谢!
概览
大型语言模型(LLM)现在被嵌入为“AI 代理”,能够查询内部公司数据库并生成上下文感知的答案。虽然这提升了生产力,但生成的文本可能会无意泄露机密数据。Yang 和 Zhu 提出了一套严格的、基于差分隐私的框架,从 enterprise data 方面(而不仅是用户提示方面)量化并控制这种泄露。
关键贡献
- 面向 AI 代理的概率隐私模型 – 将整个响应生成流水线(提示 + 私有数据集 → 令牌序列)视为一个随机机制。
- 令牌级别与消息级别的差分隐私定义 – 将经典 DP 扩展到单个令牌和完整消息的粒度,实现细粒度泄漏分析。
- 闭式隐私界限 – 推导出将隐私损失与生成超参数(如温度、top‑k 采样和输出长度)关联的解析关系。
- 隐私‑效用权衡公式 – 将温度(及相关采样参数)的选择表述为一个优化问题,在最小化隐私损失的同时保持答案质量。
- 最优温度选择算法 – 提供一种实用方案,用于在给定 DP 预算下选取实现最佳隐私‑效用平衡的温度。
方法论
-
随机机制定义 – 作者将 AI 代理建模为函数
M(prompt, D) → distribution over token strings,其中D为私有企业数据集。 -
差分隐私适配 – 他们将经典的
(ε,δ)‑DP 定义适配到两个层级:- 令牌级 DP:保证当
D中添加/删除单条记录时,任意单个令牌的概率仅会有轻微变化。 - 消息级 DP:将保证扩展到整个生成的响应。
- 令牌级 DP:保证当
-
隐私损失界定 – 通过分析 LLM 的 softmax 采样步骤,他们将隐私损失
ε表示为温度τ、词表大小以及生成令牌数L的函数。 -
优化问题 – 他们给出:
[ \min_{\tau} ; \text{Utility}(\tau) \quad \text{s.t.} \quad \epsilon(\tau, L) \le \epsilon_{\text{budget}} ]
其中效用通过标准语言模型指标(如困惑度、BLEU)衡量。
-
通过凸近似求解 – 论文表明目标函数在
τ上准凸,可通过高效的线搜索找到最优温度。
结果与发现
| 实验 | 数据集 | 指标 | 隐私 (ε) | 实用性 (困惑度 ↓) |
|---|---|---|---|---|
| 合成数据库查询 | 10 K 条记录 | 回答准确率 | 0.8(最优 τ≈0.7) | 12.3 |
| 真实业务 CRM 数据 | 5 K 条记录 | BLEU‑4 | 1.0(最优 τ≈0.6) | 18.7 |
| 消融实验(无 DP) | – | – | – | 9.5(基线) |
- 温度很重要:较低的温度(更确定性的采样)会显著降低 ε,但会削弱流畅度;较高的温度会增加信息泄露。
- 基于 Token 的 DP 更紧致:在 token 颗粒度上提供的保证比朴素的消息级界限产生更小的 ε。
- 最优 τ 可实现约 30 % 的隐私提升,相较于默认设置(τ = 1.0),实用性损失不足 5 %。
作者还通过实证验证了理论界限,展示推导得到的 ε 与通过成员推断攻击测得的实际隐私泄露高度吻合。
实际意义
- 企业 AI 代理可以安全部署:通过根据提供的公式调节 temperature(或类似的采样参数),工程师可以在满足监管隐私预算(例如 GDPR 式的差分隐私保证)的同时,不牺牲答案的相关性。
- 为 LLM API 内置隐私控制:云服务提供商可以提供一个“隐私感知 temperature”滑块,自动对给定的 ε 预算强制执行最优 τ。
- 合规优先的提示工程:团队现在可以量化生成响应可能泄露的敏感信息量,并相应地调整生成参数或添加后处理(例如编辑)。
- 微调指南:在对专有数据进行微调时,该框架帮助决定降低 temperature 或截断响应的幅度,以保持在期望的隐私范围内。
限制与未来工作
- 假设数据集是静态的:分析将私有语料库视为固定不变;持续学习或动态更新可能会使界限失效。
- 仅关注温度:其他生成参数(top‑p、核采样、束宽)未得到充分探讨,尽管它们也会影响隐私。
- 效用指标简化:困惑度和 BLEU 只是代理指标;实际任务性能(例如决策支持准确率)可能表现不同。
- 对大规模模型的可扩展性:实验在 2.7 B 参数模型上进行;将其扩展到 100 B 规模的 LLM 可能需要额外的近似方法。
未来的研究方向包括将 DP 分析扩展到流式查询工作负载、纳入其他采样策略,以及构建端到端工具包,自动在生产 AI‑agent 流程中实现最佳的隐私‑效用权衡。
作者
- Ya‑Ting Yang
- Quanyan Zhu
论文信息
- arXiv ID: 2603.17902v1
- 分类: cs.CR, cs.AI
- 出版日期: 2026年3月18日
- PDF: 下载 PDF