[Paper] 使用大型语言模型和知识图谱提升制造业机器学习模型的可解释性

发布: 2天前 (2026年4月18日 GMT+8 01:41)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16280v1

概述

该论文提出了一种混合式 XAI 流程，将特定领域的 Knowledge Graph (KG) 与 Large Language Model (LLM) 结合，以将原始机器学习输出转化为面向制造操作员的清晰、上下文感知的解释。通过在结构化图中存储传感器级数据和模型的预测，系统能够检索最相关的事实，并让 LLM 用通俗语言“讲述”这些事实，从而在真实工厂环境中显著提升可解释性。

关键贡献

KG‑augmented XAI framework: 提出一种将机器学习结果与领域知识以图三元组形式持久化的方法，创建统一的解释真相来源。
Selective KG retrieval for LLM prompting: 设计了一种轻量级检索算法，仅提取最相关的三元组后再输入 LLM，从而保持提示简短且成本有效。
Manufacturing‑focused evaluation: 使用 XAI Question Bank 加上 15 个定制的行业特定问题（共计 33 条），对该方法在准确性、一致性、清晰度和实用性方面进行基准测试。
Empirical evidence of decision‑support gains: 表明通过 KG‑LLM 流水线生成的解释能够提升操作员信心，并在试点生产线上加快根因分析速度。
Open‑source reference implementation: 提供代码和一个小型 KG 架构，可适配到其他制造领域甚至其他工业部门。

方法论

数据与模型集成 – 将传感器流、工艺参数以及预测性维护模型的输出导入 Neo4j‑style KG。每个预测都关联到贡献最大的原始特征（例如通过 SHAP 值）。
三元组选择 – 对于给定的用户查询，基于规则的选择器（特征重要性 > 阈值 + 时间相关性）提取少量三元组（通常 5‑10 条），捕获预测背后的“原因”。
提示构建 – 将选中的三元组格式化为自然语言陈述（例如 “机器 X 在过去 30 分钟内温度上升了 +12 °C”），并与对 LLM 的简洁指令拼接（例如 “解释模型为何预测在下一小时内会发生故障”）。
LLM 生成 – 商业 LLM（GPT‑4‑Turbo）处理提示并返回一段解释。后处理去除行话并添加可操作的建议。
评估 – 将答案与 XAI Question Bank 的真实答案集进行比较。自动计算定量指标（准确率、一致性），并由 8 位制造工程师组成的小组在 5 分 Likert 量表上评估清晰度和实用性。

结果与发现

Metric	KG‑LLM (proposed)	Baseline LLM‑only	Baseline SHAP‑text
Accuracy (correct answer)	92 %	71 %	68 %
Consistency (same answer on re‑ask)	94 %	78 %	75 %
Clarity (avg. rating)	4.6 / 5	3.8 / 5	3.5 / 5
Usefulness (avg. rating)	4.5 / 5	3.6 / 5	3.2 / 5

KG‑LLM pipeline 对所有 33 个问题的回答在事实正确性上均高于仅查看原始特征值的普通 LLM。
操作员报告说，诊断预测故障的时间 减少了 30 %，将加速归因于 KG 提供的上下文 grounding。
定性反馈指出，解释感觉“植入了工厂自己的语言”，避免了典型 SHAP 图的“黑箱感”。

实际意义

更快的根因分析： 维护团队可以直接依据预测结果采取行动，无需在原始传感器日志或单独的 SHAP 可视化中进行深挖。
降低培训成本： 新操作员可以通过自然语言理解模型输出，减少对专门 XAI 培训的需求。
可扩展到其他领域： 检索‑提示模式适用于任何大型语言模型和图数据库，能够作为质量控制、能源管理或供应链预测等场景的可复用组件。
成本效益高的部署： 通过将提示限制在少量三元组内，令牌使用保持在低水平（≈ 150 令牌/查询），即使在高吞吐量环境下也能保持 API 成本可控。
合规性与可审计性： 将解释以关联的图形三元组形式存储，形成可追溯的来源链，便于在安全关键的制造业中进行监管报告。

限制与未来工作

KG 维护负担: 随着传感器套件和工艺的演变，保持图谱的最新需要专门的数据工程工作。
领域特定的提示工程: 当前的选择器和提示模板是为单一工厂手动调优的；要实现泛化可能需要自动化的提示优化技术。
LLM 幻觉风险: 虽然 KG 基础降低了幻觉，但在检索到的三元组稀疏时仍观察到偶发的捏造。
未来方向 包括：(1) 基于学习的检索模型，可适应用户反馈；(2) 将多模态数据（例如检查摄像头的图像）集成到 KG 中；以及 (3) 在更大规模的多工厂部署上评估该方法，以检验可扩展性和鲁棒性。

作者

Thomas Bayer
Alexander Lohr
Sarah Weiß
Bernd Michelberger
Wolfram Höpken

论文信息

arXiv ID: 2604.16280v1
分类: cs.AI
发布时间: 2026年4月17日
PDF: 下载 PDF

[Paper] 使用大型语言模型和知识图谱提升制造业机器学习模型的可解释性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性