[Paper] Evo‑TFS:进化时频域合成少数类过采样方法用于不平衡时间序列分类

发布: (2026年1月3日 GMT+8 18:38)
7 min read
原文: arXiv

Source: arXiv - 2601.01150v1

(未提供需要翻译的文本。如需翻译,请提供具体内容。)

概述

时间序列分类(TSC)驱动着从预测性维护到健康监测的各种应用,但大多数最先进的模型假设训练数据在各类别之间是均衡的。在实际部署中,少数类——通常是最关键的那类(例如故障事件)——往往样本不足,导致深度学习分类器漏检。论文 Evo‑TFS 引入了一种新的过采样技术,通过在时间域和频率域同时演化,合成逼真的少数类序列,从而显著提升了不平衡 TSC 问题的分类性能。

关键贡献

  • 进化过采样框架 – 利用强类型遗传编程(GP)生成符合时间和频谱特性的合成时间序列样本。
  • 双域适应度函数 – 将时域相似性(如形状、幅度)与频域指标(如功率谱密度)相结合,引导 GP 演化出高质量、多样化的序列。
  • 领域无关设计 – 可与任何下游分类器(CNN、LSTM、基于形状片段或频域模型)配合使用,无需特定模型的调整。
  • 全面的实证评估 – 在多个不平衡数据集上,将 Evo‑TFS 与经典过采样方法(SMOTE、ADASYN)以及近期的时间序列专用方法进行基准比较,显示出统计显著的提升。
  • 开源实现 – 作者将基于 GP 的过采样器发布为 Python 包,便于在现有机器学习流水线中轻松集成。

方法论

  1. 数据表示 – 将每个原始少数类序列转换为两种平行表示:原始时域信号及其基于傅里叶的频谱。
  2. 强类型遗传编程 – 初始化候选程序(个体)种群。每个程序定义一种通过组合原始操作(例如缩放、平移、窗口化)来构建新序列的配方,这些操作经过类型检查以确保在时域或频域的有效操作。
  3. 适应度评估 – 对每个候选序列计算两个得分:
    • 时域得分:使用动态时间规整(DTW)和统计矩衡量与真实少数样本的形状相似性。
    • 频域得分:通过功率谱的余弦相似度以及对主导频率成分的保持来评估光谱相似性。
      整体适应度是这些得分的加权和,鼓励在两个域中都看起来真实的候选。
  4. 进化算子 – 应用标准 GP 算子(交叉、变异),遵守类型约束,对种群进行多代进化。将表现最好的个体选为合成少数样本。
  5. 与分类器的集成 – 将生成的序列追加到训练集,任何现成的时间序列分类(TSC)模型都可以照常训练。

Results & Findings

  • 分类提升:在 12 个公开可用的不平衡时间序列分类(TSC)基准中,Evo‑TFS 将宏观 F1 分数平均提升了 7.4 %,超过第二佳的过采样方法。
  • 模型无关的增益:深度模型(CNN、LSTM)和经典的基于形状片段的分类器均获得了改进,证明合成数据对下游架构均有帮助。
  • 多样性保持:谱分析表明,Evo‑TFS 生成的频率模式范围比基于 SMOTE 的方法更广,降低了对狭窄合成样本集合的过拟合。
  • 统计显著性:配对 Wilcoxon 符号秩检验(p < 0.01)验证了观察到的性能提升不是随机偶然造成的。

Practical Implications

  • Fault Detection & Predictive Maintenance – 即使故障事件稀少,工程师也能训练更可靠的异常检测器,从而降低停机时间和维护成本。
  • Healthcare Time‑Series (ECG, Wearables) – 更好的少数类合成有助于在无需大量标注数据的情况下识别罕见的病理模式。
  • Financial Time‑Series Anomaly Spotting – 交易员可以提升对罕见市场操纵或闪电崩盘的检测,从而加强风险管理系统。
  • Plug‑and‑Play Integration – 由于 Evo‑TFS 输出标准的 NumPy 数组,开发者只需一次函数调用即可将其嵌入现有流水线(scikit‑learn、PyTorch、TensorFlow)。
  • Reduced Data Collection Burden – 组织可以在无需昂贵收集更多少数样本的情况下实现高性能模型,加速 AI 产品的上市时间。

局限性与未来工作

  • 计算开销 – GP 进化步骤比简单的基于插值的过采样器更耗费计算资源;在非常大规模的数据集上可能需要并行化或使用代理适应度近似。
  • 参数敏感性 – 时间域和频域适应度权重之间的平衡会影响结果;自动化超参数调优仍是一个未解决的挑战。
  • 领域特异性 – 虽然该方法是通用的,但某些领域(例如不规则采样的传感器流)可能需要自定义基元或预处理步骤。
  • 未来方向 – 作者计划探索混合进化‑GAN 方法以加快样本生成,加入多变量时间序列扩展,并在流式/在线学习场景中进行评估。

作者

  • Wenbin Pei
  • Ruohao Dai
  • Bing Xue
  • Mengjie Zhang
  • Qiang Zhang
  • Yiu-Ming Cheung

论文信息

  • arXiv ID: 2601.01150v1
  • 分类: cs.LG, cs.NE
  • 发表日期: 2026年1月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »