[论文] EvoTSC：通过遗传编程进化用于时间序列分类的特征学习模型

发布: 1天前 (2026年4月28日 GMT+8 19:01)

6 分钟阅读

原文: arXiv

Source: arXiv - 2604.25499v1

概述

本文介绍了 EvoTSC，一种遗传编程框架，能够自动设计紧凑且高性能的特征学习流水线，用于单变量时间序列分类。通过嵌入领域知识并使用基于帕累托的选择，EvoTSC 解决了开发者常遇到的两个痛点：标记数据有限以及需要重量级模型。

Multi‑layer GP representation 将专家设计的时间序列算子（例如 shapelets、Fourier transforms）融合到可进化的程序中。
Pareto tournament selection 奖励在多个训练子集划分上保持稳定准确性的模型，直接对抗过拟合。
Lightweight evolved models 所需参数显著更少，推理时间也远低于典型的深度学习基线。
Comprehensive empirical evaluation 在 85 个单变量 UCR/UEA 数据集上进行，显示相较于 11 种最先进分类器的统计显著提升。
Ablation study 证实了每个设计要素（知识注入、多层结构、选择策略）的重要性。

程序编码 – GP 种群中的每个个体都是一个三阶段流水线：
- 预处理（例如平滑、差分）
- 特征提取（shapelet 变换、自相关、谱系数）
- 分类器（线性模型、决策树）。
  这些层通过一小组带类型的函数相连，使进化引擎能够在保持语法有效性的前提下对它们进行重组和突变。
知识引导搜索 – 作者们整理了一套在时间序列数据上历来表现良好的算子。通过在初始种群和突变概率上偏向这些算子，GP 的搜索空间被显著缩小到有前景的区域。
帕累托锦标赛选择 – EvoTSC 并非在单一的训练‑测试划分上评估模型，而是在 k 个不同的随机子样本上测量性能。个体依据平衡 (i) 平均准确率和 (ii) 子样本间方差的帕累托前沿进行排序。这鼓励产生对数据稀缺性具有鲁棒性的解。
进化循环 – 标准 GP 操作（交叉、子树突变、提升突变）在固定代数（通常 50–100 代）内执行。帕累托前沿上的最佳个体被返回为最终分类器。

整个流水线在单个 CPU 核心上运行，使得没有 GPU 集群的团队也能使用。

指标（85 个数据集的平均）	EvoTSC	最佳深度学习基线（FCN）	随机森林（TSF）
准确率	0.842	0.815	0.791
模型大小（参数）	~1.2 K	~12 K	~3 K
推理时间（每条序列毫秒）	0.4	2.3	0.9

Rapid prototyping – Developers can feed raw sensor streams into EvoTSC and obtain a ready‑to‑deploy classifier without hand‑crafting features or tuning deep nets.
Edge deployment – The tiny model size and low inference latency make EvoTSC ideal for IoT devices, wearables, or embedded controllers where power and compute are scarce.
Data‑efficient learning – The Pareto selection explicitly favors models that generalize from few labeled examples, useful in domains like predictive maintenance or medical monitoring where annotation is costly.
Explainability – Because the evolved pipelines consist of interpretable transformations (e.g., specific shapelet filters), engineers can trace which temporal patterns drive decisions, aiding compliance and debugging.

作者建议探索特征算子与分类器的协同进化，并结合基于强化学习的奖励塑形，以进一步提升在噪声真实流数据上的鲁棒性。