[Paper] 从 XAI 到故事:LLM 生成解释质量的因素研究

发布: (2026年1月5日 GMT+8 23:52)
6 min read
原文: arXiv

Source: arXiv - 2601.02224v1

概述

本文研究了如何将 XAI 工具(如 SHAP 和 LIME)产生的原始数值解释转化为可供人类阅读的故事,方法是使用大型语言模型(LLM)。通过系统性地变更预测模型、XAI 方法、LLM 以及提示风格,作者揭示了在时间序列预测场景中,哪些因素真正影响高质量自然语言解释(NLE)的生成。

关键贡献

  • 因子实验设计,涵盖 4 种预测模型、3 种 XAI 技术(包括无 XAI 基线)、3 种 LLM,以及 8 种提示策略——共计生成 660 条解释。
  • LLM‑as‑judge 评估,使用 G‑Eval,配合两位独立的 LLM 评审和四项质量标准(忠实度、完整性、清晰度和有用性)。
  • 实证发现 LLM 的选择胜过所有其他因素,DeepSeek‑R1 始终优于 GPT‑4o 和 Llama‑3‑8B。
  • 证据表明经典 XAI 方法对非专家用户仅带来边际价值,在使用强大的 LLM 时甚至可能不必要。
  • 发现“可解释性悖论”: 更准确的经典模型(SARIMAX)的自然语言解释(NLE)质量低于黑箱机器学习模型。
  • 提示策略洞察: 零样本提示的质量可匹配更昂贵的自一致性提示,而链式思考(CoT)会降低解释质量。

方法论

  1. 预测模型 – 四个模型在标准时间序列数据集上训练:

    • XGBoost (XGB)
    • 随机森林 (RF)
    • 多层感知机 (MLP)
    • SARIMAX(统计时间序列模型)
  2. XAI 条件 – 对每个预测,使用以下方式生成解释:

    • SHAP
    • LIME
    • No‑XAI(仅原始预测)
  3. LLM 生成器 – 将数值归因(或原始预测)输入三个 LLM:

    • GPT‑4o(OpenAI)
    • Llama‑3‑8B(Meta)
    • DeepSeek‑R1(DeepSeek)
  4. 提示策略 – 八种变体,从简单的零样本提示到自洽(多次采样答案)以及链式思考提示。

  5. 评估 – 使用 G‑Eval,两位 LLM 评审独立为每个解释打分,维度包括:

    • 忠实度(是否反映底层归因?)
    • 完整性(是否覆盖所有重要特征)
    • 清晰度(对目标受众的可读性)
    • 有用性(对用户的可操作性)

    分数汇总后得到每个 660 条解释的整体质量指标。

结果与发现

因素对 NLE 质量的影响
LLM 选择主导因素;DeepSeek‑R1 > GPT‑4o > Llama‑3‑8B
XAI 方法相比无 XAI 有小幅提升,但仅对专家用户明显
预测模型SARIMAX(最准确)产生 最差 的 NLE;机器学习模型(XGB、RF、MLP)提供更丰富的叙述
提示方式零样本提示表现与昂贵的自一致性相当(≈7× 更便宜);思路链降低了清晰度和忠实度
受众非专家对 SHAP/LIME 收益不大;专家对边际提升表示赞赏

总体而言,研究表明,强大的 LLM 能弥补缺乏复杂 XAI 后处理的不足,而精细的提示可能不值得额外的计算预算。

Practical Implications

  • 针对构建 AI 仪表盘的产品团队: 投资强大的大语言模型(或经过微调的变体)可能比集成多个 XAI 库更具成本效益,尤其是当目标用户是非技术人员时。
  • 提示工程预算: 简单的零-shot 提示即可提供高质量解释,从而释放计算资源用于扩展或其他模型推理任务。
  • 模型选择权衡: 当可解释性是关键需求时,选择与 LLM 配合良好的黑箱机器学习模型可能比选择统计上更优但“可解释性”较差的模型(如 SARIMAX)更合适。
  • 开发者工具: 将 SHAP/LIME 输出封装为轻量级 JSON 负载供 LLM 使用的 SDK 可以一次构建,跨模型复用,从而降低工程开销。
  • 成本优化: 通过避免自洽(多次抽样答案)仍能保持质量,可将推理成本降低最高达 85 %。

限制与未来工作

  • Domain scope: 实验仅聚焦于单一时间序列预测数据集;在分类、自然语言处理或计算机视觉任务上结果可能不同。
  • LLM judge reliability: 使用大型语言模型(LLM)作为评估者会引入潜在偏差;研究中未进行人工验证。
  • Prompt diversity: 仅测试了八种提示变体;更细致的提示工程(例如少量示例、角色扮演)可能揭示更多洞见。
  • Explainability depth: 本研究衡量的是表层的自然语言解释(NLE)质量,但未评估其对下游决策的影响或随时间变化的用户信任。

Future research could extend the factorial design to other domains, incorporate human user studies, and explore fine‑tuning LLMs specifically for explanation generation.

作者

  • Fabian Lukassen
  • Jan Herrmann
  • Christoph Weisser
  • Benjamin Saefken
  • Thomas Kneib

论文信息

  • arXiv ID: 2601.02224v1
  • 分类: cs.CL
  • 出版日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »