[Paper] 使用归因图解释大型语言模型的推理
发布: (2025年12月18日 GMT+8 02:15)
7 min read
原文: arXiv
Source: arXiv - 2512.15663v1
概述
大型语言模型(LLMs)能够生成令人印象深刻的连贯文本,但导致每个 token 的推理链对用户而言是隐藏的。Walker 和 Ewetz 提出了 Context Attribution via Graph Explanations (CAGE),这是一种构建有向归因图的方法,用以追踪每个生成的 token 不仅受到原始提示的影响,还受到所有前置 token 的影响。通过保持因果关系并确保图的每行之和为一,CAGE 能够提供比以往“上下文归因”技术更为忠实的 LLM 推理解释。
关键贡献
- 归因图形式化 – 引入一种有向、行随机(row‑stochastic)的图,用于捕捉整个生成序列中 token‑到‑token 的影响。
- CAGE 框架 – 提供一种系统化方法,通过对图中所有路径进行边缘化来计算上下文归因,保持因果关系。
- 忠实度提升 – 实验表明,在多个大型语言模型(如 GPT‑2、LLaMA)和基准数据集上,归因忠实度提升最高可达 40 %。
- 通用流水线 – 兼容多种归因方法(如 Integrated Gradients、Gradient × Input),可直接嵌入现有模型检查工具包。
- 开源实现 – 作者发布了代码和预计算图,保证可复现性并促进社区快速采纳。
方法论
- Token‑Level Influence Scores – 对于每一步生成,作者计算一个原始归因向量,将贡献在所有可能贡献的 token(提示词 + 之前生成的 token)之间分配。
- Graph Construction – 这些向量成为有向图 (G) 的行。从 token i 到 token j 的边携带归一化的影响权重,保证每行之和为 1(行随机性),且边仅指向时间上的前进方向(因果性)。
- Marginalization Over Paths – 为了获得原始提示词对后续 token 的整体贡献,CAGE 将从提示 token 到目标 token 的每条可能路径上的边权重乘积相加。这类似于计算网络中的总流量。
- Evaluation Protocol – 通过扰动测试(移除高归因 token 并观察输出变化)以及在可用时与真实推理轨迹进行比较来衡量忠实度。
该方法刻意保持模型无关性:它将 LLM 视为一个黑盒,只要能够提供 token‑level 梯度或其他归因信号,即可在这些信号之上构建图。
结果与发现
| 模型 / 数据集 | 基线归因(无图) | CAGE 改进 |
|---|---|---|
| GPT‑2 在 WikiText‑103 上 | 0.62(忠实度得分) | +28 % |
| LLaMA‑7B 在 GSM‑8K 上 | 0.55 | +34 % |
| Falcon‑40B 在 TruthfulQA 上 | 0.48 | +40 % |
- 与人工判断的相关性更高 – 当用户对解释的清晰度进行评分时,基于 CAGE 的归因始终更受青睐。
- 在各种归因方法下均表现稳健 – 无论使用 Integrated Gradients、DeepLIFT,还是简单的 gradient × input,图的边缘化步骤都带来了类似的提升。
- 可扩展 – 图的构建随生成的 token 数量线性增长;边缘化可以通过动态规划高效完成,额外开销保持在总推理时间的 15 % 以下。
实际意义
- Debugging LLM‑Powered Applications – 开发者可以定位提示词的哪一部分(或哪一个先前生成的 token)导致了意外的答案,从而更容易优化提示词或添加安全防护。
- Safety & Compliance – 归因图提供审计轨迹,监管机构在高风险领域(例如医疗建议、金融推荐)可能会要求此类记录。
- Prompt Engineering Tools – 集成到 IDE 插件中,CAGE 能实时可视化影响流,帮助工程师构建更可靠的提示词。
- Model Distillation & Compression – 通过揭示最具影响力的上下文窗口,CAGE 可以指导有选择的剪枝或知识蒸馏,而不会牺牲推理的忠实度。
- Explainable AI Interfaces – 面向终端用户的产品(聊天机器人、代码助手)可以展示“为什么是这个答案?”的可视化解释,这些解释基于数学上可靠的归因图,而非简单的 token‑to‑prompt 热力图。
限制与未来工作
- 线性影响的假设 – 当前图聚合了加性归因;令牌之间的非线性交互可能被低估。
- 依赖底层归因质量 – 如果基础的基于梯度的方法噪声较大,图也会继承这些噪声。
- 对超长上下文的可扩展性 – 虽然是线性的,但内存占用随序列长度增长;未来工作可以探索稀疏或层次化的图表示。
- 需要用户研究 – 论文的人类评估有限;更广泛的可用性研究将验证可视化的实际价值。
作者建议将 CAGE 扩展到多模态模型,加入注意力头信息,并探索因果干预实验,以进一步强化归因图与模型实际推理之间的关联。
作者
- Chase Walker
- Rickard Ewetz
论文信息
- arXiv ID: 2512.15663v1
- 类别: cs.AI, cs.CL
- 发表时间: 2025年12月17日
- PDF: 下载 PDF