[Paper] BSAT: B-Spline 自适应分词器用于长期时间序列预测
发布: (2026年1月2日 GMT+8 22:27)
7 min read
原文: arXiv
Source: arXiv - 2601.00698v1
Overview
本文介绍了 BSAT(B‑样条自适应分词器),这是一种用于 transformer 模型对长期时间序列数据进行预处理的新方法。通过对原始序列拟合 B‑样条,BSAT 创建的 token 能自动聚焦于信号中最“有趣”(高曲率)的部分,显著减少模型需要处理的 token 数量,同时保持预测准确性。
关键贡献
- 基于 B‑样条的自适应分词 – 一种无参数算法,在序列快速变化处放置 token,并将平滑区域合并为单个 token。
- 固定大小的 token 表示 – 每个可变长度的样条段被编码为包含其系数和位置信息的紧凑 token。
- 混合位置编码 (L‑RoPE) – 将可学习的加性编码与可在每个 transformer 层调节基数的旋转嵌入相结合,使每层能够捕获不同的时间尺度。
- 高压缩率且精度竞争力强 – 在标准长期预测基准上的大量实验表明,BSAT 在使用更少 token 的情况下,匹配或超越最先进模型。
- 内存高效设计 – 该方法对 GPU 内存成为瓶颈的边缘设备或云服务尤为有吸引力。
方法论
-
对原始序列进行 B‑样条拟合
- 该算法对时间序列的每个单变量通道拟合一个分段多项式 B‑样条。
- 节点(样条段连接处)会自动放置在曲率较高的位置,即二阶导数超过阈值的地方。
-
Token 创建
- 每个样条段成为一个 token。
- token 存储:
- 定义该段形状的样条系数,
- 该段的起始时间(或归一化位置),以及
- 通过一个小的线性层将系数向量投影得到的固定维度(例如 64 维)。
-
混合位置编码 (L‑RoPE)
- 可学习的加性位置编码:向每个 token 添加的标准可训练向量。
- 旋转位置编码:根据时间戳旋转 token 嵌入;旋转基准是一个可学习的标量,可在不同的 Transformer 层之间不同,使得更深的层能够关注更长的时间范围。
-
Transformer 主干
- token 序列(现在大幅缩短)被送入标准的 encoder‑decoder 或仅 encoder 的 Transformer。
- 由于 token 数量减少,自注意力的二次计算成本即使在非常长的时间范围内也几乎可以忽略不计。
-
训练与推理
- 整个流水线(分词 + Transformer)是端到端可微分的;仅学习 Transformer 参数,而 B‑样条拟合保持确定性且无需额外参数。
结果与发现
| 数据集 (基准) | 预测范围 | 令牌 / 输入长度 | MAE ↓ / MSE ↓ (相对基线) |
|---|---|---|---|
| ETTh1 | 96 | 原始的 1/8 | MAE +3.2 % ,MSE +2.8 % |
| Traffic | 336 | 原始的 1/10 | MAE +2.5 % ,MSE +2.1 % |
| Electricity | 168 | 原始的 1/12 | MAE +1.9 % ,MSE +1.7 % |
- 压缩与精度的权衡:即使在 90 % 压缩(即仅保留原始令牌的 10 %)的情况下,BSAT 的误差增长在大多数基准上仍低于 5 %。
- 内存占用:相较于普通 transformer 基线,GPU 内存使用降低最多 80 %。
- 消融实验:去除 L‑RoPE 或使用统一(非自适应)分词会导致性能下降 4–7 %,验证了两者的重要性。
总体而言,BSAT 在提供 最先进的长期预测 能力的同时,保持模型轻量,适用于受限环境。
实际意义
- Edge & IoT deployments – 生成高频数据的传感器(例如智能电网、工业物联网)可以在内存受限的设备上运行基于 BSAT 的预测模型,从而延长电池寿命并降低云端带宽需求。
- Cost‑effective cloud services – 更低的内存占用意味着 SaaS 预测平台可以使用更便宜的 GPU 实例,从而提升请求吞吐量。
- Dynamic resolution – 由于 token 聚焦于高活跃时期,开发者可以在最关键的时段(例如流量或需求的峰值)获得更细粒度的预测。
- Plug‑and‑play – BSAT 是一个预处理层;现有的 Transformer 代码库只需少量修改即可采用,集成过程简便。
- Explainability – 样条结点提供了一种直观的方式来可视化模型认为重要的序列部分,有助于调试和与利益相关者的沟通。
限制与未来工作
- 假设平滑性 – B‑splines 在底层信号为分段平滑时效果最佳;高度噪声或混沌的序列可能需要额外的去噪步骤。
- 单变量标记化 – 当前实现对每个变量独立进行标记化;扩展到多变量样条拟合可以更有效地捕获跨通道动态。
- 固定样条阶数 – 论文使用固定的三次样条;探索自适应阶数或其他基函数(例如小波)可能会提升某些领域的表示能力。
- 结点检测的可扩展性 – 虽然算法在序列长度上是线性的,但对于极长的流(数十亿点)仍可受益于流式或分层结点选择方案。
未来研究方向包括 多变量自适应标记器、实时流的在线样条拟合,以及 将 BSAT 与稀疏注意力 Transformer 结合,以突破超长时域预测的极限。
作者
- Maximilian Reinwardt
- Michael Eichelbeck
- Matthias Althoff
论文信息
- arXiv ID: 2601.00698v1
- Categories: cs.LG
- Published: 2026年1月2日
- PDF: 下载 PDF