[Paper] 可解释的异常检测用于工业物联网数据流

发布: (2025年12月10日 GMT+8 02:20)
6 min read
原文: arXiv

Source: arXiv - 2512.08885v1

Overview

本文提出了一种 实时、可解释的异常检测框架,用于工业物联网(IIoT)数据流。通过将在线版 Isolation Forest 与即时可解释性工具相结合,作者实现了操作员能够 即时发现故障并理解原因——这对于计算资源稀缺、标签稀缺的车间维护决策至关重要。

Key Contributions

  • 协同流式管道,将无监督异常检测与人机交互反馈环路相耦合。
  • 在线 Isolation Forest 实现,能够在新传感器读数到达时增量更新模型。
  • 增量部分依赖图 (iPDP) 与一种新颖的 特征重要性评分,该评分基于 Individual Conditional Expectation (ICE) 曲线相对于衰减平均的偏差,为每个实例提供解释。
  • 动态阈值调整,依据用户驱动的相关性重新评估,使操作员在无需重新训练整个模型的情况下调节灵敏度。
  • 在 Jacquard 织机单元上的原型部署,展示了在真实制造环境中进行故障检测的可行性。

Methodology

  1. 数据流摄取 – 传感器读数(振动、温度、电机电流等)从边缘设备流向轻量级处理节点。
  2. 在线 Isolation Forest – 对每个进入的样本计算 “隔离深度” 分数;模型增量更新树结构,避免昂贵的批量再训练。
  3. 可解释性层
    • 对每个评分实例,即时计算 ICE 曲线(针对每个特征)。
    • 维护 过去 ICE 曲线的衰减平均(旧曲线指数衰减)。
    • 当前 ICE 曲线与该平均值的 偏差 产生 重要性评分,突出导致异常的特征。
    • 增量 PDP 汇总这些偏差,提供随时间变化的全局特征相关性视图。
  4. 人机交互 – 操作员可以检查 iPDP/重要性可视化,确认或拒绝异常,并调整异常阈值。系统立即将该反馈纳入,优化后续检测。

Results & Findings

  • 在 Jacquard 织机数据集上,在线 Isolation Forest 实现了 ≈ 92 % 的检测率(针对模拟轴承故障),且 误报率低于 5 %
  • 可解释性模块在 > 80 % 的真实异常中正确识别出 振动轴向温度峰值 为主要贡献因素,符合领域专家的预期。
  • 交互式阈值调优将 误报的平均解决时间 缩短约 30 %,因为操作员能够快速抑制虚假警报,无需等待模型再训练。
  • 计算资源占用保持在 5 % 以下的 CPU 使用率(在 ARM Cortex‑A53 边缘网关上),证实了其在资源受限环境中的适用性。

Practical Implications

  • 更快的维护决策 – 操作员不仅收到警报,还能得到简明的 “原因”(例如 “温度 ↑,振动 X 轴 ↑”),从而立即采取纠正措施。
  • 降低停机时间 – 早期、可解释的轴承磨损检测可触发预测性维护,防止灾难性故障,节省高昂的生产停工成本。
  • 可扩展的边缘部署 – 轻量、增量的算法可运行在现有 PLC 或边缘网关上,避免昂贵的云端往返。
  • 以人为中心的 AI – 将专家保留在循环中,尊重现有维护工作流并建立信任,这常是工业黑箱模型的主要障碍。
  • 可移植性 – 框架对传感器无特定依赖;将织机换成 CNC 机床或输送带仅需重新配置特征集,无需重新设计检测引擎。

Limitations & Future Work

  • 当前评估仅限于 单台织机单元;需要在更广泛的机器上进行验证,以确认通用性。
  • 标签稀缺 仍是挑战;虽然系统可无监督运行,但更丰富的标注数据集有望提升阈值校准并进一步降低误报。
  • 可解释性方法依赖 ICE 曲线的稳定性;高度噪声的传感器可能导致重要性评分波动,需要额外的平滑技术。
  • 正在进行的工作旨在将管道扩展至 轴承故障的预测性预测(不仅是检测),并集成 持续学习,实现对数月运行期间传感器漂移的自动适应。

Authors

  • Ana Rita Paupério
  • Diogo Risca
  • Afonso Lourenço
  • Goreti Marreiros
  • Ricardo Martins

Paper Information

  • arXiv ID: 2512.08885v1
  • Categories: cs.LG
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »