[Paper] 基于Transformer的时间序列分类的机制可解释性

发布: 2个月前 (2025年11月26日 GMT+8 23:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21514v1

Overview

Transformer 已在时间序列分类中占据领先地位，但其黑箱特性使工程师难以信任或调试。本文将一套 mechanistic interpretability 工具——最初为 NLP 构建——迁移到处理序列传感器数据的 Transformer 模型上，揭示模型如何、在何处 做出决策。

跨领域迁移： 将 activation‑patching、attention‑saliency 和稀疏自编码器技术从语言模型移植到时间序列 Transformer。
因果头级分析： 系统性地探查单个注意力头和特定时间步，绘制它们对最终分类的因果影响。
内部因果图： 构建可视化图谱，追踪信息在网络中的流动，定位最具影响力的头和时间位置。
可解释的潜在特征： 证明稀疏自编码器能够提取紧凑、易于人类理解的模型内部状态表示。
基准验证： 将该方法应用于广泛使用的时间序列分类基准，展示解释性流水线能够扩展到真实数据集。

模型与数据集 – 作者在 UCR/UEA 时间序列分类基准（例如 “ElectricDevices” 数据集）上训练了标准的 Vision‑Transformer‑style 架构。
Activation Patching – 对隐藏激活进行干预：对于给定的测试样本，将特定头/时间步的激活替换为参考（正确分类）样本的激活，并测量输出概率的变化。这量化了该组件的因果贡献。
Attention Saliency – 通过计算损失相对于注意力分数的梯度，生成热图，突出模型最为敏感的头‑时间步对。
Sparse Autoencoders – 在 Transformer 的中间激活上训练一个轻量级自编码器，并施加强稀疏惩罚。得到的潜在维度对应于不同的、可复用的模式（如 “spike‑detector” 或 “trend‑matcher”）。
Causal Graph Construction – 将 patching 结果和 saliency 图结合，构建有向图，节点为头/时间步，边表示测得的因果影响，提供信息传播的高层视图。

头重要性层次结构： 少数子集（≈ 10 % 的头）贡献了 > 70 % 的预测能力；这些头始终关注包含判别性模式的早期时间步。
时间热点： 某些时间步（通常是模式的起始）在多个类别中反复被识别为因果枢纽。
稀疏潜在语义： 自编码器的顶部潜在单元与直观的信号特征对齐——例如一个单元在尖锐峰值上激活，另一个在渐变斜坡上激活——提供了 Transformer 使用的特征字典，易于人类阅读。
性能持平： 引入解释性流水线未降低分类准确率（与基线相差 0.2 %），证明分析是非侵入性的。
因果图 与多个数据集的已知领域知识相吻合（如 “ECG200” 数据集的 QRS 复合波），表明该方法揭示的是实际的信号推理，而非偶然相关。

数据集范围： 实验仅局限于单一基准套件；需要在多变量、非规则采样或流式时间序列上进行更广泛的验证。
patching 的可扩展性： Activation patching 随头数和时间步数呈二次增长，对非常深或序列很长的模型成本高昂。近似或层次化的 patching 策略是有前景的方向。
自编码器可解释性： 虽然潜在单元展示了语义模式，但将其系统映射到领域特定概念仍需手动完成；引入监督探测可能实现自动化。
实时适用性： 当前流水线为离线模式；未来工作应探索轻量、即时的解释性方法，以用于实时监控系统。

Bottom line: 通过将 mechanistic interpretability 引入基于 Transformer 的时间序列分类器，作者为开发者提供了一把实用的“显微镜”，让他们能够洞察这些强大模型的内部工作原理，从而推动更可信、高效、面向领域的 AI 系统的发展。