[Paper] StretchTime: 自适应时间序列预测 via 辛注意力

发布: (2026年2月10日 GMT+8 02:29)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.08983v1

概述

本文介绍了 StretchTime,一种基于 Transformer 的新架构,能够在预测时间序列数据时“拉伸”或“压缩”时间感知。通过将标准的旋转位置编码替换为可学习的 Symplectic Positional Embedding (SyPE),模型能够适应金融、物联网传感器流、健康监测以及许多其他真实世界领域中出现的非均匀、扭曲的时间模式。

关键贡献

  • 对位置编码极限的形式化分析 – 证明了流行的旋转位置嵌入 (RoPE) 无法表示非仿射(非线性)时间扭曲。
  • 辛位置嵌入 (SyPE) – 一种受哈密顿启发的全新编码,将 RoPE 从旋转群 SO(2) 推广到辛群 Sp(2, ℝ)。
  • 自适应扭曲模块 – 学习输入相关的膨胀/收缩因子,使注意力头能够动态重新缩放时间坐标。
  • StretchTime 架构 – 将 SyPE 融入多变量预测 Transformer,在多个基准数据集上实现了最新水平的结果。
  • 对非平稳动态的鲁棒性 – 在具有周期性漂移和不规则采样率的数据集上展示了持续的性能提升。

方法论

  1. 问题框架 – 传统的 Transformer 将时间视为均匀间隔的索引。作者指出,许多真实序列表现出 时间扭曲 动力学,即局部的“时间流速”会发生变化。
  2. 辛嵌入设计
    • 从 RoPE 的旋转矩阵 (R(\theta) \in \mathrm{SO}(2)) 开始。
    • 扩展为辛矩阵 (S(\phi) \in \mathrm{Sp}(2,\mathbb{R})),它既可以表示旋转也可以表示保持面积的剪切,从而提供额外的自由度来建模拉伸/压缩。
    • 扭曲因子 (\phi_t) 由一个轻量级神经模块生成,该模块以时间 (t) 的原始输入(例如最近的数值、趋势指示器)为条件。
  3. 与注意力的集成 – 每个 token 的位置向量在进入缩放点积注意力之前,会先乘以其学习得到的辛矩阵。这使得相似度得分对局部扭曲的时间线更加敏感。
  4. 端到端训练 – 扭曲模块、SyPE 参数以及 Transformer 的其余部分与常规的预测损失(如 MSE 或 MAE)一起联合优化。无需关于扭曲函数的额外监督。

结果与发现

数据集(类型)基线 (RoPE)StretchTime (SyPE)相对 Δ
Electricity (hourly)0.112 MAE0.094–16%
Traffic (15‑min)0.087 MAE0.074–15%
Exchange‑rate (daily)0.021 RMSE0.018–14%
Synthetic time‑warped series0.145 MAE0.103–29%
  • 在多变量、单变量以及合成基准上均实现了持续提升,尤其是在底层频率随时间变化的情况下。
  • 消融实验表明,自适应扭曲模块贡献了大部分改进;去除该模块后性能几乎回到 RoPE 基线水平。
  • 鲁棒性测试(例如随机缺失值、不规则采样)显示,StretchTime 的性能衰减较为平缓,而标准 Transformer 的准确率下降更为显著。

实际意义

  • 金融建模 – 交易员可以将不规则的行情数据输入 StretchTime,并获得能够自动适应市场状态转变(例如突发波动)的预测。
  • 物联网与边缘分析 – 传感器数据流常常具有可变的报告间隔;StretchTime 能在无需昂贵重采样的情况下处理不规则节奏。
  • 健康监测 – 生理信号(心率、激素水平)呈现昼夜节律漂移;该模型能够实时学习患者特定的节律变化。
  • 软件集成 – SyPE 可直接替代现有 Transformer 库(PyTorch、TensorFlow)中的 RoPE。额外参数轻量(< 2 % 的模型总体积),因而适用于生产环境,甚至可在设备端推理。

限制与未来工作

  • 计算开销 – 自适应 warp 模块会带来每个 token 的小额额外成本;在非常长的序列(≥ 10 k 步)上,延迟可能变得明显。
  • 可解释性 – 虽然 warp 因子是学习得到的,但论文并未提供一种系统的方法来从模型中提取人类可读的 warp 曲线。
  • 基准范围 – 实验主要聚焦于标准学术数据集;更大规模的行业评估(例如,高频交易、大规模智慧城市传感器网络)仍留待后续研究。
  • 向其他模态的扩展 – 作者建议探索将 SyPE 用于视频帧率自适应或不规则文本流,这仍是一个未解的研究方向。

StretchTime 表明,对位置编码进行适度、受物理启发的调整即可为时间序列 Transformer 解锁全新的适应性,使其在开发者每天面对的杂乱、非均匀数据中变得更加实用。

作者

  • Yubin Kim
  • Viresh Pati
  • Jevon Twitty
  • Vinh Pham
  • Shihao Yang
  • Jiecheng Lu

论文信息

  • arXiv ID: 2602.08983v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2026年2月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »