[Paper] 从 XAI 到故事：LLM 生成解释质量的因素研究

发布: 2周前 (2026年1月5日 GMT+8 23:52)

6 min read

原文: arXiv

Source: arXiv - 2601.02224v1

概述

本文研究了如何将 XAI 工具（如 SHAP 和 LIME）产生的原始数值解释转化为可供人类阅读的故事，方法是使用大型语言模型（LLM）。通过系统性地变更预测模型、XAI 方法、LLM 以及提示风格，作者揭示了在时间序列预测场景中，哪些因素真正影响高质量自然语言解释（NLE）的生成。

关键贡献

因子实验设计，涵盖 4 种预测模型、3 种 XAI 技术（包括无 XAI 基线）、3 种 LLM，以及 8 种提示策略——共计生成 660 条解释。
LLM‑as‑judge 评估，使用 G‑Eval，配合两位独立的 LLM 评审和四项质量标准（忠实度、完整性、清晰度和有用性）。
实证发现 LLM 的选择胜过所有其他因素，DeepSeek‑R1 始终优于 GPT‑4o 和 Llama‑3‑8B。
证据表明经典 XAI 方法对非专家用户仅带来边际价值，在使用强大的 LLM 时甚至可能不必要。
发现“可解释性悖论”： 更准确的经典模型（SARIMAX）的自然语言解释（NLE）质量低于黑箱机器学习模型。
提示策略洞察： 零样本提示的质量可匹配更昂贵的自一致性提示，而链式思考（CoT）会降低解释质量。

方法论

预测模型 – 四个模型在标准时间序列数据集上训练：
- XGBoost (XGB)
- 随机森林 (RF)
- 多层感知机 (MLP)
- SARIMAX（统计时间序列模型）
XAI 条件 – 对每个预测，使用以下方式生成解释：
- SHAP
- LIME
- No‑XAI（仅原始预测）
LLM 生成器 – 将数值归因（或原始预测）输入三个 LLM：
- GPT‑4o（OpenAI）
- Llama‑3‑8B（Meta）
- DeepSeek‑R1（DeepSeek）
提示策略 – 八种变体，从简单的零样本提示到自洽（多次采样答案）以及链式思考提示。
评估 – 使用 G‑Eval，两位 LLM 评审独立为每个解释打分，维度包括：
- 忠实度（是否反映底层归因？）
- 完整性（是否覆盖所有重要特征）
- 清晰度（对目标受众的可读性）
- 有用性（对用户的可操作性）
分数汇总后得到每个 660 条解释的整体质量指标。

结果与发现

因素	对 NLE 质量的影响
LLM 选择	主导因素；DeepSeek‑R1 > GPT‑4o > Llama‑3‑8B
XAI 方法	相比无 XAI 有小幅提升，但仅对专家用户明显
预测模型	SARIMAX（最准确）产生最差的 NLE；机器学习模型（XGB、RF、MLP）提供更丰富的叙述
提示方式	零样本提示表现与昂贵的自一致性相当（≈7× 更便宜）；思路链降低了清晰度和忠实度
受众	非专家对 SHAP/LIME 收益不大；专家对边际提升表示赞赏

总体而言，研究表明，强大的 LLM 能弥补缺乏复杂 XAI 后处理的不足，而精细的提示可能不值得额外的计算预算。

Practical Implications

针对构建 AI 仪表盘的产品团队： 投资强大的大语言模型（或经过微调的变体）可能比集成多个 XAI 库更具成本效益，尤其是当目标用户是非技术人员时。
提示工程预算： 简单的零-shot 提示即可提供高质量解释，从而释放计算资源用于扩展或其他模型推理任务。
模型选择权衡： 当可解释性是关键需求时，选择与 LLM 配合良好的黑箱机器学习模型可能比选择统计上更优但“可解释性”较差的模型（如 SARIMAX）更合适。
开发者工具： 将 SHAP/LIME 输出封装为轻量级 JSON 负载供 LLM 使用的 SDK 可以一次构建，跨模型复用，从而降低工程开销。
成本优化： 通过避免自洽（多次抽样答案）仍能保持质量，可将推理成本降低最高达 85 %。

限制与未来工作

Domain scope: 实验仅聚焦于单一时间序列预测数据集；在分类、自然语言处理或计算机视觉任务上结果可能不同。
LLM judge reliability: 使用大型语言模型（LLM）作为评估者会引入潜在偏差；研究中未进行人工验证。
Prompt diversity: 仅测试了八种提示变体；更细致的提示工程（例如少量示例、角色扮演）可能揭示更多洞见。
Explainability depth: 本研究衡量的是表层的自然语言解释（NLE）质量，但未评估其对下游决策的影响或随时间变化的用户信任。

Future research could extend the factorial design to other domains, incorporate human user studies, and explore fine‑tuning LLMs specifically for explanation generation.

作者

Fabian Lukassen
Jan Herrmann
Christoph Weisser
Benjamin Saefken
Thomas Kneib

论文信息

arXiv ID: 2601.02224v1
分类: cs.CL
出版日期: 2026年1月5日
PDF: 下载 PDF

[Paper] 从 XAI 到故事：LLM 生成解释质量的因素研究

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析