[Paper] 从 XAI 到故事:LLM 生成解释质量的因素研究
Source: arXiv - 2601.02224v1
概述
本文研究了如何将 XAI 工具(如 SHAP 和 LIME)产生的原始数值解释转化为可供人类阅读的故事,方法是使用大型语言模型(LLM)。通过系统性地变更预测模型、XAI 方法、LLM 以及提示风格,作者揭示了在时间序列预测场景中,哪些因素真正影响高质量自然语言解释(NLE)的生成。
关键贡献
- 因子实验设计,涵盖 4 种预测模型、3 种 XAI 技术(包括无 XAI 基线)、3 种 LLM,以及 8 种提示策略——共计生成 660 条解释。
- LLM‑as‑judge 评估,使用 G‑Eval,配合两位独立的 LLM 评审和四项质量标准(忠实度、完整性、清晰度和有用性)。
- 实证发现 LLM 的选择胜过所有其他因素,DeepSeek‑R1 始终优于 GPT‑4o 和 Llama‑3‑8B。
- 证据表明经典 XAI 方法对非专家用户仅带来边际价值,在使用强大的 LLM 时甚至可能不必要。
- 发现“可解释性悖论”: 更准确的经典模型(SARIMAX)的自然语言解释(NLE)质量低于黑箱机器学习模型。
- 提示策略洞察: 零样本提示的质量可匹配更昂贵的自一致性提示,而链式思考(CoT)会降低解释质量。
方法论
-
预测模型 – 四个模型在标准时间序列数据集上训练:
- XGBoost (XGB)
- 随机森林 (RF)
- 多层感知机 (MLP)
- SARIMAX(统计时间序列模型)
-
XAI 条件 – 对每个预测,使用以下方式生成解释:
- SHAP
- LIME
- No‑XAI(仅原始预测)
-
LLM 生成器 – 将数值归因(或原始预测)输入三个 LLM:
- GPT‑4o(OpenAI)
- Llama‑3‑8B(Meta)
- DeepSeek‑R1(DeepSeek)
-
提示策略 – 八种变体,从简单的零样本提示到自洽(多次采样答案)以及链式思考提示。
-
评估 – 使用 G‑Eval,两位 LLM 评审独立为每个解释打分,维度包括:
- 忠实度(是否反映底层归因?)
- 完整性(是否覆盖所有重要特征)
- 清晰度(对目标受众的可读性)
- 有用性(对用户的可操作性)
分数汇总后得到每个 660 条解释的整体质量指标。
结果与发现
| 因素 | 对 NLE 质量的影响 |
|---|---|
| LLM 选择 | 主导因素;DeepSeek‑R1 > GPT‑4o > Llama‑3‑8B |
| XAI 方法 | 相比无 XAI 有小幅提升,但仅对专家用户明显 |
| 预测模型 | SARIMAX(最准确)产生 最差 的 NLE;机器学习模型(XGB、RF、MLP)提供更丰富的叙述 |
| 提示方式 | 零样本提示表现与昂贵的自一致性相当(≈7× 更便宜);思路链降低了清晰度和忠实度 |
| 受众 | 非专家对 SHAP/LIME 收益不大;专家对边际提升表示赞赏 |
总体而言,研究表明,强大的 LLM 能弥补缺乏复杂 XAI 后处理的不足,而精细的提示可能不值得额外的计算预算。
Practical Implications
- 针对构建 AI 仪表盘的产品团队: 投资强大的大语言模型(或经过微调的变体)可能比集成多个 XAI 库更具成本效益,尤其是当目标用户是非技术人员时。
- 提示工程预算: 简单的零-shot 提示即可提供高质量解释,从而释放计算资源用于扩展或其他模型推理任务。
- 模型选择权衡: 当可解释性是关键需求时,选择与 LLM 配合良好的黑箱机器学习模型可能比选择统计上更优但“可解释性”较差的模型(如 SARIMAX)更合适。
- 开发者工具: 将 SHAP/LIME 输出封装为轻量级 JSON 负载供 LLM 使用的 SDK 可以一次构建,跨模型复用,从而降低工程开销。
- 成本优化: 通过避免自洽(多次抽样答案)仍能保持质量,可将推理成本降低最高达 85 %。
限制与未来工作
- Domain scope: 实验仅聚焦于单一时间序列预测数据集;在分类、自然语言处理或计算机视觉任务上结果可能不同。
- LLM judge reliability: 使用大型语言模型(LLM)作为评估者会引入潜在偏差;研究中未进行人工验证。
- Prompt diversity: 仅测试了八种提示变体;更细致的提示工程(例如少量示例、角色扮演)可能揭示更多洞见。
- Explainability depth: 本研究衡量的是表层的自然语言解释(NLE)质量,但未评估其对下游决策的影响或随时间变化的用户信任。
Future research could extend the factorial design to other domains, incorporate human user studies, and explore fine‑tuning LLMs specifically for explanation generation.
作者
- Fabian Lukassen
- Jan Herrmann
- Christoph Weisser
- Benjamin Saefken
- Thomas Kneib
论文信息
- arXiv ID: 2601.02224v1
- 分类: cs.CL
- 出版日期: 2026年1月5日
- PDF: 下载 PDF