[论文] EvoTSC:通过遗传编程进化用于时间序列分类的特征学习模型
发布: (2026年4月28日 GMT+8 19:01)
6 分钟阅读
原文: arXiv
Source: arXiv - 2604.25499v1
概述
本文介绍了 EvoTSC,一种遗传编程框架,能够自动设计紧凑且高性能的特征学习流水线,用于单变量时间序列分类。通过嵌入领域知识并使用基于帕累托的选择,EvoTSC 解决了开发者常遇到的两个痛点:标记数据有限以及需要重量级模型。
关键贡献
- Multi‑layer GP representation 将专家设计的时间序列算子(例如 shapelets、Fourier transforms)融合到可进化的程序中。
- Pareto tournament selection 奖励在多个训练子集划分上保持稳定准确性的模型,直接对抗过拟合。
- Lightweight evolved models 所需参数显著更少,推理时间也远低于典型的深度学习基线。
- Comprehensive empirical evaluation 在 85 个单变量 UCR/UEA 数据集上进行,显示相较于 11 种最先进分类器的统计显著提升。
- Ablation study 证实了每个设计要素(知识注入、多层结构、选择策略)的重要性。
方法论
-
程序编码 – GP 种群中的每个个体都是一个三阶段流水线:
- 预处理(例如平滑、差分)
- 特征提取(shapelet 变换、自相关、谱系数)
- 分类器(线性模型、决策树)。
这些层通过一小组带类型的函数相连,使进化引擎能够在保持语法有效性的前提下对它们进行重组和突变。
-
知识引导搜索 – 作者们整理了一套在时间序列数据上历来表现良好的算子。通过在初始种群和突变概率上偏向这些算子,GP 的搜索空间被显著缩小到有前景的区域。
-
帕累托锦标赛选择 – EvoTSC 并非在单一的训练‑测试划分上评估模型,而是在 k 个不同的随机子样本上测量性能。个体依据平衡 (i) 平均准确率 和 (ii) 子样本间方差 的帕累托前沿进行排序。这鼓励产生对数据稀缺性具有鲁棒性的解。
-
进化循环 – 标准 GP 操作(交叉、子树突变、提升突变)在固定代数(通常 50–100 代)内执行。帕累托前沿上的最佳个体被返回为最终分类器。
整个流水线在单个 CPU 核心上运行,使得没有 GPU 集群的团队也能使用。
结果与发现
| 指标(85 个数据集的平均) | EvoTSC | 最佳深度学习基线(FCN) | 随机森林(TSF) |
|---|---|---|---|
| 准确率 | 0.842 | 0.815 | 0.791 |
| 模型大小(参数) | ~1.2 K | ~12 K | ~3 K |
| 推理时间(每条序列毫秒) | 0.4 | 2.3 | 0.9 |
- EvoTSC 在 85 个数据集中的 62 个上优于所有 11 位竞争者(p < 0.01,Wilcoxon 符号秩检验)。
- 消融实验表明,去除 Pareto 选择会使平均准确率下降约 3 %,而剔除专家算子会导致约 5 % 的下降。
- 内存占用和 CPU 使用率比典型卷积网络低一个数量级,证实了“资源高效”模型的声明。
Practical Implications
- Rapid prototyping – Developers can feed raw sensor streams into EvoTSC and obtain a ready‑to‑deploy classifier without hand‑crafting features or tuning deep nets.
- Edge deployment – The tiny model size and low inference latency make EvoTSC ideal for IoT devices, wearables, or embedded controllers where power and compute are scarce.
- Data‑efficient learning – The Pareto selection explicitly favors models that generalize from few labeled examples, useful in domains like predictive maintenance or medical monitoring where annotation is costly.
- Explainability – Because the evolved pipelines consist of interpretable transformations (e.g., specific shapelet filters), engineers can trace which temporal patterns drive decisions, aiding compliance and debugging.
限制与未来工作
- 单变量聚焦 – 当前实现仅处理单通道序列;若要扩展到多变量数据(工业物联网中常见),需要更丰富的算子集合。
- 搜索的可扩展性 – 虽然对 CPU 友好,但在大型数据集上 GP 过程仍可能需要数小时;与代理模型混合或并行 GP 可加速此过程。
- 算子库偏差 – 性能提升依赖于精心挑选的专家算子集合;自动发现新原语仍是一个未解决的挑战。
作者建议探索特征算子与分类器的协同进化,并结合基于强化学习的奖励塑形,以进一步提升在噪声真实流数据上的鲁棒性。
作者
- Xuanhao Yang
- Bing Xue
- Mengjie Zhang
论文信息
- arXiv ID: 2604.25499v1
- 分类: cs.LG, cs.NE
- 发表时间: 2026年4月28日
- PDF: 下载 PDF