[Paper] 使用大型语言模型和知识图谱提升制造业机器学习模型的可解释性

发布: (2026年4月18日 GMT+8 01:41)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.16280v1

概述

该论文提出了一种混合式 XAI 流程,将特定领域的 Knowledge Graph (KG) 与 Large Language Model (LLM) 结合,以将原始机器学习输出转化为面向制造操作员的清晰、上下文感知的解释。通过在结构化图中存储传感器级数据和模型的预测,系统能够检索最相关的事实,并让 LLM 用通俗语言“讲述”这些事实,从而在真实工厂环境中显著提升可解释性。

关键贡献

  • KG‑augmented XAI framework: 提出一种将机器学习结果与领域知识以图三元组形式持久化的方法,创建统一的解释真相来源。
  • Selective KG retrieval for LLM prompting: 设计了一种轻量级检索算法,仅提取最相关的三元组后再输入 LLM,从而保持提示简短且成本有效。
  • Manufacturing‑focused evaluation: 使用 XAI Question Bank 加上 15 个定制的行业特定问题(共计 33 条),对该方法在准确性、一致性、清晰度和实用性方面进行基准测试。
  • Empirical evidence of decision‑support gains: 表明通过 KG‑LLM 流水线生成的解释能够提升操作员信心,并在试点生产线上加快根因分析速度。
  • Open‑source reference implementation: 提供代码和一个小型 KG 架构,可适配到其他制造领域甚至其他工业部门。

方法论

  1. 数据与模型集成 – 将传感器流、工艺参数以及预测性维护模型的输出导入 Neo4j‑style KG。每个预测都关联到贡献最大的原始特征(例如通过 SHAP 值)。
  2. 三元组选择 – 对于给定的用户查询,基于规则的选择器(特征重要性 > 阈值 + 时间相关性)提取少量三元组(通常 5‑10 条),捕获预测背后的“原因”。
  3. 提示构建 – 将选中的三元组格式化为自然语言陈述(例如 “机器 X 在过去 30 分钟内温度上升了 +12 °C”),并与对 LLM 的简洁指令拼接(例如 “解释模型为何预测在下一小时内会发生故障”)。
  4. LLM 生成 – 商业 LLM(GPT‑4‑Turbo)处理提示并返回一段解释。后处理去除行话并添加可操作的建议。
  5. 评估 – 将答案与 XAI Question Bank 的真实答案集进行比较。自动计算定量指标(准确率、一致性),并由 8 位制造工程师组成的小组在 5 分 Likert 量表上评估清晰度和实用性。

结果与发现

MetricKG‑LLM (proposed)Baseline LLM‑onlyBaseline SHAP‑text
Accuracy (correct answer)92 %71 %68 %
Consistency (same answer on re‑ask)94 %78 %75 %
Clarity (avg. rating)4.6 / 53.8 / 53.5 / 5
Usefulness (avg. rating)4.5 / 53.6 / 53.2 / 5
  • KG‑LLM pipeline 对所有 33 个问题的回答在事实正确性上均高于仅查看原始特征值的普通 LLM。
  • 操作员报告说,诊断预测故障的时间 减少了 30 %,将加速归因于 KG 提供的上下文 grounding。
  • 定性反馈指出,解释感觉“植入了工厂自己的语言”,避免了典型 SHAP 图的“黑箱感”。

实际意义

  • 更快的根因分析: 维护团队可以直接依据预测结果采取行动,无需在原始传感器日志或单独的 SHAP 可视化中进行深挖。
  • 降低培训成本: 新操作员可以通过自然语言理解模型输出,减少对专门 XAI 培训的需求。
  • 可扩展到其他领域: 检索‑提示模式适用于任何大型语言模型和图数据库,能够作为质量控制、能源管理或供应链预测等场景的可复用组件。
  • 成本效益高的部署: 通过将提示限制在少量三元组内,令牌使用保持在低水平(≈ 150 令牌/查询),即使在高吞吐量环境下也能保持 API 成本可控。
  • 合规性与可审计性: 将解释以关联的图形三元组形式存储,形成可追溯的来源链,便于在安全关键的制造业中进行监管报告。

限制与未来工作

  • KG 维护负担: 随着传感器套件和工艺的演变,保持图谱的最新需要专门的数据工程工作。
  • 领域特定的提示工程: 当前的选择器和提示模板是为单一工厂手动调优的;要实现泛化可能需要自动化的提示优化技术。
  • LLM 幻觉风险: 虽然 KG 基础降低了幻觉,但在检索到的三元组稀疏时仍观察到偶发的捏造。
  • 未来方向 包括:(1) 基于学习的检索模型,可适应用户反馈;(2) 将多模态数据(例如检查摄像头的图像)集成到 KG 中;以及 (3) 在更大规模的多工厂部署上评估该方法,以检验可扩展性和鲁棒性。

作者

  • Thomas Bayer
  • Alexander Lohr
  • Sarah Weiß
  • Bernd Michelberger
  • Wolfram Höpken

论文信息

  • arXiv ID: 2604.16280v1
  • 分类: cs.AI
  • 发布时间: 2026年4月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »