[Paper] 使用归因图解释大型语言模型的推理

发布: (2025年12月18日 GMT+8 02:15)
7 min read
原文: arXiv

Source: arXiv - 2512.15663v1

概述

大型语言模型(LLMs)能够生成令人印象深刻的连贯文本,但导致每个 token 的推理链对用户而言是隐藏的。Walker 和 Ewetz 提出了 Context Attribution via Graph Explanations (CAGE),这是一种构建有向归因图的方法,用以追踪每个生成的 token 不仅受到原始提示的影响,还受到所有前置 token 的影响。通过保持因果关系并确保图的每行之和为一,CAGE 能够提供比以往“上下文归因”技术更为忠实的 LLM 推理解释。

关键贡献

  • 归因图形式化 – 引入一种有向、行随机(row‑stochastic)的图,用于捕捉整个生成序列中 token‑到‑token 的影响。
  • CAGE 框架 – 提供一种系统化方法,通过对图中所有路径进行边缘化来计算上下文归因,保持因果关系。
  • 忠实度提升 – 实验表明,在多个大型语言模型(如 GPT‑2、LLaMA)和基准数据集上,归因忠实度提升最高可达 40 %
  • 通用流水线 – 兼容多种归因方法(如 Integrated Gradients、Gradient × Input),可直接嵌入现有模型检查工具包。
  • 开源实现 – 作者发布了代码和预计算图,保证可复现性并促进社区快速采纳。

方法论

  1. Token‑Level Influence Scores – 对于每一步生成,作者计算一个原始归因向量,将贡献在所有可能贡献的 token(提示词 + 之前生成的 token)之间分配。
  2. Graph Construction – 这些向量成为有向图 (G) 的行。从 token i 到 token j 的边携带归一化的影响权重,保证每行之和为 1(行随机性),且边仅指向时间上的前进方向(因果性)。
  3. Marginalization Over Paths – 为了获得原始提示词对后续 token 的整体贡献,CAGE 将从提示 token 到目标 token 的每条可能路径上的边权重乘积相加。这类似于计算网络中的总流量。
  4. Evaluation Protocol – 通过扰动测试(移除高归因 token 并观察输出变化)以及在可用时与真实推理轨迹进行比较来衡量忠实度。

该方法刻意保持模型无关性:它将 LLM 视为一个黑盒,只要能够提供 token‑level 梯度或其他归因信号,即可在这些信号之上构建图。

结果与发现

模型 / 数据集基线归因(无图)CAGE 改进
GPT‑2 在 WikiText‑103 上0.62(忠实度得分)+28 %
LLaMA‑7B 在 GSM‑8K 上0.55+34 %
Falcon‑40B 在 TruthfulQA 上0.48+40 %
  • 与人工判断的相关性更高 – 当用户对解释的清晰度进行评分时,基于 CAGE 的归因始终更受青睐。
  • 在各种归因方法下均表现稳健 – 无论使用 Integrated Gradients、DeepLIFT,还是简单的 gradient × input,图的边缘化步骤都带来了类似的提升。
  • 可扩展 – 图的构建随生成的 token 数量线性增长;边缘化可以通过动态规划高效完成,额外开销保持在总推理时间的 15 % 以下。

实际意义

  • Debugging LLM‑Powered Applications – 开发者可以定位提示词的哪一部分(或哪一个先前生成的 token)导致了意外的答案,从而更容易优化提示词或添加安全防护。
  • Safety & Compliance – 归因图提供审计轨迹,监管机构在高风险领域(例如医疗建议、金融推荐)可能会要求此类记录。
  • Prompt Engineering Tools – 集成到 IDE 插件中,CAGE 能实时可视化影响流,帮助工程师构建更可靠的提示词。
  • Model Distillation & Compression – 通过揭示最具影响力的上下文窗口,CAGE 可以指导有选择的剪枝或知识蒸馏,而不会牺牲推理的忠实度。
  • Explainable AI Interfaces – 面向终端用户的产品(聊天机器人、代码助手)可以展示“为什么是这个答案?”的可视化解释,这些解释基于数学上可靠的归因图,而非简单的 token‑to‑prompt 热力图。

限制与未来工作

  • 线性影响的假设 – 当前图聚合了加性归因;令牌之间的非线性交互可能被低估。
  • 依赖底层归因质量 – 如果基础的基于梯度的方法噪声较大,图也会继承这些噪声。
  • 对超长上下文的可扩展性 – 虽然是线性的,但内存占用随序列长度增长;未来工作可以探索稀疏或层次化的图表示。
  • 需要用户研究 – 论文的人类评估有限;更广泛的可用性研究将验证可视化的实际价值。

作者建议将 CAGE 扩展到多模态模型,加入注意力头信息,并探索因果干预实验,以进一步强化归因图与模型实际推理之间的关联。

作者

  • Chase Walker
  • Rickard Ewetz

论文信息

  • arXiv ID: 2512.15663v1
  • 类别: cs.AI, cs.CL
  • 发表时间: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »