[Paper] 可视化黑盒语言模型的 token 重要性
发布: (2025年12月12日 GMT+8 22:01)
7 min read
原文: arXiv
Source: arXiv - 2512.11573v1
概述
本文提出了 基于分布的敏感性分析 (DBSA),一种模型无关的技术,能够让开发者窥探黑箱大语言模型(LLM),观察每个输入 token 如何影响生成的输出。DBSA 将 LLM 视为随机 oracle——无需梯度或内部权重,即可通过对输出分布的比较来快速、即插即用地审计只能通过 API 调用访问的模型,这在处理法律、医疗或合规关键文本的生产系统中非常常见。
关键贡献
- 模型无关的 token 级敏感性度量 – 适用于任何通过黑箱 API 访问的 LLM,无需源码或梯度。
- 基于分布的方法 – 通过在受控扰动下比较输出分布来估计 token 重要性,能够处理 LLM 采样的随机性。
- 轻量、即插即用的工具 – 每个 token 只需少量 API 调用,适合实时调试或周期性审计。
- 可视化框架 – 生成直观的热力图,突出模型在给定生成过程中“依赖”的 token。
- 实证验证 – 证明 DBSA 能够发现现有可解释性方法(如基于注意力的得分、基于梯度的显著性)在多个基准提示下遗漏的敏感性。
方法论
- 提示扰动 – 对输入提示中的每个 token t,DBSA 生成一组 n 个扰动提示,将 t 替换为中性占位符(例如 mask token 或同义词)。
- 输出采样 – 对每个扰动提示,黑箱 LLM 被查询 k 次,收集生成的续写(或 token 级概率)样本。
- 分布比较 – 将原始输出分布(未扰动提示)与每个扰动分布使用统计距离(如 Jensen‑Shannon 散度)进行比较。
- 敏感性得分 – 将 k 次采样的平均距离作为 token t 的敏感性得分。得分越高表明当 t 被改变时模型输出变化越明显。
- 可视化 – 将得分映射到原始提示上形成热力图,使用户能够瞬间发现“高影响” token。
由于该方法仅依赖重复的前向传播,避免了梯度的需求,因而兼容任何托管的 LLM(OpenAI、Anthropic、Cohere 等)。
结果与发现
| 实验 | 设置 | 关键观察 |
|---|---|---|
| 合成偏见探针 | 提示中包含性别名词,要求 LLM 生成职业 | DBSA 将性别 token 标记为高度敏感,而注意力得分则较为分散。 |
| 法律条款分析 | 提示包含合同条款,要求 LLM 摘要 | 与责任和日期相关的 token 对摘要输出影响最大。 |
| 医学笔记生成 | 提示包含患者症状,要求诊断 | 症状 token 获得最高敏感性得分,验证了临床相关性。 |
| 与基线比较 | 梯度显著性(可用时)和注意力权重 | 在随机采样(top‑p、temperature > 0)下,DBSA 始终产生更清晰、更局部化的重要性图。 |
总体而言,DBSA 成功标记出那些在被改变时会导致 LLM 响应出现统计显著变化的 token——这些细微的依赖关系往往被其他方法遗漏。
实际意义
- 合规审计 – 监管机构可使用 DBSA 验证模型决策未被提示中隐藏的受保护属性(如种族、性别)过度驱动。
- 提示工程 – 开发者可迭代优化提示,删除或改写高敏感性 token,以避免不期望的模型行为。
- 安全防护 – 在生产环境中监控敏感性得分,当新提示配置引入意外的 token 依赖时触发警报。
- 供应商无关测试 – 由于 DBSA 适用于任何仅提供 API 的 LLM,能够自然融入依赖第三方语言服务的 CI/CD 流程。
- 面向用户的可解释性 – 前端工具可向终端用户(如审阅 AI 生成合同的律师)展示 token 热力图,提升信任与透明度。
局限性与未来工作
- 采样成本 – 每个 token 需要多次前向传播,对长提示或高吞吐服务成本较高;作者建议采用自适应采样以缓解。
- 扰动选择 – 用通用 mask 替换 token 可能无法捕捉细微语义变化;探索同义词或改写扰动或能提升忠实度。
- 统计距离敏感性 – 不同散度度量可能产生不同得分;对替代方案的系统性研究留待后续。
- 动态上下文 – DBSA 目前假设提示是静态的;将其扩展到多轮对话或流式输出仍是未解挑战。
作者设想构建一个更丰富的工具箱,将 DBSA 与因果推断技术结合,并直接集成到 API 监控仪表盘中。
作者
- Paulius Rauba
- Qiyao Wei
- Mihaela van der Schaar
论文信息
- arXiv ID: 2512.11573v1
- 分类: cs.CL, cs.LG
- 发布日期: 2025 年 12 月 12 日
- PDF: Download PDF