[Paper] 可解释的异常检测用于工业物联网数据流
发布: (2025年12月10日 GMT+8 02:20)
6 min read
原文: arXiv
Source: arXiv - 2512.08885v1
Overview
本文提出了一种 实时、可解释的异常检测框架,用于工业物联网(IIoT)数据流。通过将在线版 Isolation Forest 与即时可解释性工具相结合,作者实现了操作员能够 即时发现故障并理解原因——这对于计算资源稀缺、标签稀缺的车间维护决策至关重要。
Key Contributions
- 协同流式管道,将无监督异常检测与人机交互反馈环路相耦合。
- 在线 Isolation Forest 实现,能够在新传感器读数到达时增量更新模型。
- 增量部分依赖图 (iPDP) 与一种新颖的 特征重要性评分,该评分基于 Individual Conditional Expectation (ICE) 曲线相对于衰减平均的偏差,为每个实例提供解释。
- 动态阈值调整,依据用户驱动的相关性重新评估,使操作员在无需重新训练整个模型的情况下调节灵敏度。
- 在 Jacquard 织机单元上的原型部署,展示了在真实制造环境中进行故障检测的可行性。
Methodology
- 数据流摄取 – 传感器读数(振动、温度、电机电流等)从边缘设备流向轻量级处理节点。
- 在线 Isolation Forest – 对每个进入的样本计算 “隔离深度” 分数;模型增量更新树结构,避免昂贵的批量再训练。
- 可解释性层
- 对每个评分实例,即时计算 ICE 曲线(针对每个特征)。
- 维护 过去 ICE 曲线的衰减平均(旧曲线指数衰减)。
- 当前 ICE 曲线与该平均值的 偏差 产生 重要性评分,突出导致异常的特征。
- 增量 PDP 汇总这些偏差,提供随时间变化的全局特征相关性视图。
- 人机交互 – 操作员可以检查 iPDP/重要性可视化,确认或拒绝异常,并调整异常阈值。系统立即将该反馈纳入,优化后续检测。
Results & Findings
- 在 Jacquard 织机数据集上,在线 Isolation Forest 实现了 ≈ 92 % 的检测率(针对模拟轴承故障),且 误报率低于 5 %。
- 可解释性模块在 > 80 % 的真实异常中正确识别出 振动轴向 和 温度峰值 为主要贡献因素,符合领域专家的预期。
- 交互式阈值调优将 误报的平均解决时间 缩短约 30 %,因为操作员能够快速抑制虚假警报,无需等待模型再训练。
- 计算资源占用保持在 5 % 以下的 CPU 使用率(在 ARM Cortex‑A53 边缘网关上),证实了其在资源受限环境中的适用性。
Practical Implications
- 更快的维护决策 – 操作员不仅收到警报,还能得到简明的 “原因”(例如 “温度 ↑,振动 X 轴 ↑”),从而立即采取纠正措施。
- 降低停机时间 – 早期、可解释的轴承磨损检测可触发预测性维护,防止灾难性故障,节省高昂的生产停工成本。
- 可扩展的边缘部署 – 轻量、增量的算法可运行在现有 PLC 或边缘网关上,避免昂贵的云端往返。
- 以人为中心的 AI – 将专家保留在循环中,尊重现有维护工作流并建立信任,这常是工业黑箱模型的主要障碍。
- 可移植性 – 框架对传感器无特定依赖;将织机换成 CNC 机床或输送带仅需重新配置特征集,无需重新设计检测引擎。
Limitations & Future Work
- 当前评估仅限于 单台织机单元;需要在更广泛的机器上进行验证,以确认通用性。
- 标签稀缺 仍是挑战;虽然系统可无监督运行,但更丰富的标注数据集有望提升阈值校准并进一步降低误报。
- 可解释性方法依赖 ICE 曲线的稳定性;高度噪声的传感器可能导致重要性评分波动,需要额外的平滑技术。
- 正在进行的工作旨在将管道扩展至 轴承故障的预测性预测(不仅是检测),并集成 持续学习,实现对数月运行期间传感器漂移的自动适应。
Authors
- Ana Rita Paupério
- Diogo Risca
- Afonso Lourenço
- Goreti Marreiros
- Ricardo Martins
Paper Information
- arXiv ID: 2512.08885v1
- Categories: cs.LG
- Published: December 9, 2025
- PDF: Download PDF