[Paper] 生成式 AI 代理中的差分隐私：分析与最优权衡

发布: 1天前 (2026年3月19日 GMT+8 00:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17902v1

请提供您希望翻译成简体中文的具体文本内容，我将为您进行翻译并保留原有的格式、Markdown 语法以及技术术语。谢谢！

概览

大型语言模型（LLM）现在被嵌入为“AI 代理”，能够查询内部公司数据库并生成上下文感知的答案。虽然这提升了生产力，但生成的文本可能会无意泄露机密数据。Yang 和 Zhu 提出了一套严格的、基于差分隐私的框架，从 enterprise data 方面（而不仅是用户提示方面）量化并控制这种泄露。

关键贡献

面向 AI 代理的概率隐私模型 – 将整个响应生成流水线（提示 + 私有数据集 → 令牌序列）视为一个随机机制。
令牌级别与消息级别的差分隐私定义 – 将经典 DP 扩展到单个令牌和完整消息的粒度，实现细粒度泄漏分析。
闭式隐私界限 – 推导出将隐私损失与生成超参数（如温度、top‑k 采样和输出长度）关联的解析关系。
隐私‑效用权衡公式 – 将温度（及相关采样参数）的选择表述为一个优化问题，在最小化隐私损失的同时保持答案质量。
最优温度选择算法 – 提供一种实用方案，用于在给定 DP 预算下选取实现最佳隐私‑效用平衡的温度。

方法论

随机机制定义 – 作者将 AI 代理建模为函数 M(prompt, D) → distribution over token strings，其中 D 为私有企业数据集。
差分隐私适配 – 他们将经典的 (ε,δ)‑DP 定义适配到两个层级：
- 令牌级 DP：保证当 D 中添加/删除单条记录时，任意单个令牌的概率仅会有轻微变化。
- 消息级 DP：将保证扩展到整个生成的响应。
隐私损失界定 – 通过分析 LLM 的 softmax 采样步骤，他们将隐私损失 ε 表示为温度 τ、词表大小以及生成令牌数 L 的函数。
优化问题 – 他们给出：

[ \min_{\tau} ; \text{Utility}(\tau) \quad \text{s.t.} \quad \epsilon(\tau, L) \le \epsilon_{\text{budget}} ]

其中效用通过标准语言模型指标（如困惑度、BLEU）衡量。
通过凸近似求解 – 论文表明目标函数在 τ 上准凸，可通过高效的线搜索找到最优温度。

结果与发现

实验	数据集	指标	隐私 (ε)	实用性 (困惑度 ↓)
合成数据库查询	10 K 条记录	回答准确率	0.8（最优 τ≈0.7）	12.3
真实业务 CRM 数据	5 K 条记录	BLEU‑4	1.0（最优 τ≈0.6）	18.7
消融实验（无 DP）	–	–	–	9.5（基线）

温度很重要：较低的温度（更确定性的采样）会显著降低 ε，但会削弱流畅度；较高的温度会增加信息泄露。
基于 Token 的 DP 更紧致：在 token 颗粒度上提供的保证比朴素的消息级界限产生更小的 ε。
最优 τ 可实现约 30 % 的隐私提升，相较于默认设置（τ = 1.0），实用性损失不足 5 %。

作者还通过实证验证了理论界限，展示推导得到的 ε 与通过成员推断攻击测得的实际隐私泄露高度吻合。

实际意义

企业 AI 代理可以安全部署：通过根据提供的公式调节 temperature（或类似的采样参数），工程师可以在满足监管隐私预算（例如 GDPR 式的差分隐私保证）的同时，不牺牲答案的相关性。
为 LLM API 内置隐私控制：云服务提供商可以提供一个“隐私感知 temperature”滑块，自动对给定的 ε 预算强制执行最优 τ。
合规优先的提示工程：团队现在可以量化生成响应可能泄露的敏感信息量，并相应地调整生成参数或添加后处理（例如编辑）。
微调指南：在对专有数据进行微调时，该框架帮助决定降低 temperature 或截断响应的幅度，以保持在期望的隐私范围内。

限制与未来工作

假设数据集是静态的：分析将私有语料库视为固定不变；持续学习或动态更新可能会使界限失效。
仅关注温度：其他生成参数（top‑p、核采样、束宽）未得到充分探讨，尽管它们也会影响隐私。
效用指标简化：困惑度和 BLEU 只是代理指标；实际任务性能（例如决策支持准确率）可能表现不同。
对大规模模型的可扩展性：实验在 2.7 B 参数模型上进行；将其扩展到 100 B 规模的 LLM 可能需要额外的近似方法。

未来的研究方向包括将 DP 分析扩展到流式查询工作负载、纳入其他采样策略，以及构建端到端工具包，自动在生产 AI‑agent 流程中实现最佳的隐私‑效用权衡。

作者

Ya‑Ting Yang
Quanyan Zhu

论文信息

arXiv ID: 2603.17902v1
分类: cs.CR, cs.AI
出版日期: 2026年3月18日
PDF: 下载 PDF

[Paper] 生成式 AI 代理中的差分隐私：分析与最优权衡

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测