[Paper] 使用归因图解释大型语言模型的推理

发布: 1个月前 (2025年12月18日 GMT+8 02:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15663v1

概述

大型语言模型（LLMs）能够生成令人印象深刻的连贯文本，但导致每个 token 的推理链对用户而言是隐藏的。Walker 和 Ewetz 提出了 Context Attribution via Graph Explanations (CAGE)，这是一种构建有向归因图的方法，用以追踪每个生成的 token 不仅受到原始提示的影响，还受到所有前置 token 的影响。通过保持因果关系并确保图的每行之和为一，CAGE 能够提供比以往“上下文归因”技术更为忠实的 LLM 推理解释。

关键贡献

归因图形式化 – 引入一种有向、行随机（row‑stochastic）的图，用于捕捉整个生成序列中 token‑到‑token 的影响。
CAGE 框架 – 提供一种系统化方法，通过对图中所有路径进行边缘化来计算上下文归因，保持因果关系。
忠实度提升 – 实验表明，在多个大型语言模型（如 GPT‑2、LLaMA）和基准数据集上，归因忠实度提升最高可达 40 %。
通用流水线 – 兼容多种归因方法（如 Integrated Gradients、Gradient × Input），可直接嵌入现有模型检查工具包。
开源实现 – 作者发布了代码和预计算图，保证可复现性并促进社区快速采纳。

方法论

Token‑Level Influence Scores – 对于每一步生成，作者计算一个原始归因向量，将贡献在所有可能贡献的 token（提示词 + 之前生成的 token）之间分配。
Graph Construction – 这些向量成为有向图 (G) 的行。从 token i 到 token j 的边携带归一化的影响权重，保证每行之和为 1（行随机性），且边仅指向时间上的前进方向（因果性）。
Marginalization Over Paths – 为了获得原始提示词对后续 token 的整体贡献，CAGE 将从提示 token 到目标 token 的每条可能路径上的边权重乘积相加。这类似于计算网络中的总流量。
Evaluation Protocol – 通过扰动测试（移除高归因 token 并观察输出变化）以及在可用时与真实推理轨迹进行比较来衡量忠实度。

该方法刻意保持模型无关性：它将 LLM 视为一个黑盒，只要能够提供 token‑level 梯度或其他归因信号，即可在这些信号之上构建图。

结果与发现

模型 / 数据集	基线归因（无图）	CAGE 改进
GPT‑2 在 WikiText‑103 上	0.62（忠实度得分）	+28 %
LLaMA‑7B 在 GSM‑8K 上	0.55	+34 %
Falcon‑40B 在 TruthfulQA 上	0.48	+40 %

与人工判断的相关性更高 – 当用户对解释的清晰度进行评分时，基于 CAGE 的归因始终更受青睐。
在各种归因方法下均表现稳健 – 无论使用 Integrated Gradients、DeepLIFT，还是简单的 gradient × input，图的边缘化步骤都带来了类似的提升。
可扩展 – 图的构建随生成的 token 数量线性增长；边缘化可以通过动态规划高效完成，额外开销保持在总推理时间的 15 % 以下。

实际意义

Debugging LLM‑Powered Applications – 开发者可以定位提示词的哪一部分（或哪一个先前生成的 token）导致了意外的答案，从而更容易优化提示词或添加安全防护。
Safety & Compliance – 归因图提供审计轨迹，监管机构在高风险领域（例如医疗建议、金融推荐）可能会要求此类记录。
Prompt Engineering Tools – 集成到 IDE 插件中，CAGE 能实时可视化影响流，帮助工程师构建更可靠的提示词。
Model Distillation & Compression – 通过揭示最具影响力的上下文窗口，CAGE 可以指导有选择的剪枝或知识蒸馏，而不会牺牲推理的忠实度。
Explainable AI Interfaces – 面向终端用户的产品（聊天机器人、代码助手）可以展示“为什么是这个答案？”的可视化解释，这些解释基于数学上可靠的归因图，而非简单的 token‑to‑prompt 热力图。

限制与未来工作

线性影响的假设 – 当前图聚合了加性归因；令牌之间的非线性交互可能被低估。
依赖底层归因质量 – 如果基础的基于梯度的方法噪声较大，图也会继承这些噪声。
对超长上下文的可扩展性 – 虽然是线性的，但内存占用随序列长度增长；未来工作可以探索稀疏或层次化的图表示。
需要用户研究 – 论文的人类评估有限；更广泛的可用性研究将验证可视化的实际价值。

作者建议将 CAGE 扩展到多模态模型，加入注意力头信息，并探索因果干预实验，以进一步强化归因图与模型实际推理之间的关联。

作者

Chase Walker
Rickard Ewetz

论文信息

arXiv ID: 2512.15663v1
类别: cs.AI, cs.CL
发表时间: 2025年12月17日
PDF: 下载 PDF

[Paper] 使用归因图解释大型语言模型的推理

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别

[Paper] AncientBench：面向已发掘和已传承中文语料库的全面评估