[Paper] 重新思考用于时间序列预测的循环神经网络:一种强化循环编码器与面向预测的近端策略优化

发布: (2026年1月7日 GMT+8 16:16)
7 min read
原文: arXiv

Source: arXiv - 2601.03683v1

概述

本文介绍了 RRE‑PPO4Pred,这是一种用于提升循环神经网络(RNN)在时间序列预测任务中表现的新方法。通过将 RNN 的隐藏状态动态视为决策问题,并使用面向预测的近端策略优化(PPO)变体来训练强化学习(RL)代理,作者在多个真实世界数据集上实现了相较于传统 RNN 基线和近期基于 Transformer 的预测模型更高且更稳定的准确率。

关键贡献

  • Reinforced Recurrent Encoder (RRE) – 将 RNN 的内部操作(特征选择、隐藏状态跳过和输出目标选择)视为马尔可夫决策过程,使模型能够学习 何时何处 集中注意力。
  • Prediction‑oriented PPO (PPO4Pred) – 一种定制的 PPO 算法,使用轻量级 Transformer 作为策略网络,添加直接奖励预测质量的损失项,并采用动态转移采样方案以降低梯度估计的方差。
  • Co‑evolutionary training loop – 同时优化基础 RNN 预测器和 RL 策略,使它们在训练过程中相互适应、共同提升。
  • Empirical superiority – 在五个多样且具行业相关性的时间序列基准上进行的大量实验表明,RRE‑PPO4Pred 超越了强大的 RNN 基线、经典统计模型,甚至最先进的 Transformer 预测器。

方法论

  1. Problem framing – 预测任务被划分为两个相互作用的组件:

    • 一个 RNN encoder‑decoder,仍然处理原始序列,但现在接收 policy‑guided 输入(例如,关注哪些过去的时间戳)。
    • 一个 policy agent(一个小型 Transformer),观察当前的隐藏状态并决定三项动作:
      1. Input feature selection – 选择滑动窗口中的一个子集作为前向输入。
      2. Hidden‑state skip connection – 可选地跳过某些循环更新,以避免对噪声步骤的过拟合。
      3. Target selection – 在当前步选择要预测的未来时段(或多个时段)。
  2. Markov Decision Process (MDP) – 每个时间步构成一个状态;智能体的动作将 RNN 转移到下一个状态。奖励被定义为预测损失的负值(例如 MAE),在 RNN 产生预测后计算,以鼓励直接提升准确性的动作。

  3. PPO4Pred – 经典 PPO 目标被加入 prediction‑oriented 项,以惩罚大的预测误差,并且对高维动作空间的裁剪机制进行了调优。Transformer 策略使用 dynamically sampled 转移的 mini‑batch 进行训练,从而将学习集中在信息量大的状态上(例如波动性高的时期)。

  4. Co‑evolutionary loop – 训练在以下两者之间交替进行:

    • 使用标准反向传播在预测损失上更新 RNN 参数(以当前策略为条件)。
    • 通过 PPO4Pred 更新策略网络,使用最新的 RNN 预测作为环境反馈的一部分。

    这种来回迭代持续至收敛,最终得到紧密耦合的预测器‑策略对。

结果与发现

数据集基线 RNN(如 LSTM)最佳 TransformerRRE‑PPO4Pred
Electricity (96‑step)0.112 RMSE0.098 RMSE0.087 RMSE
Traffic (48‑step)0.145 MAE0.132 MAE0.119 MAE
Weather (24‑step)0.067 MAPE0.064 MAPE0.058 MAPE
  • 持续提升:相较于最强的 Transformer 基线,提升幅度为 5–12 %。
  • 消融研究表明,去除策略引导的输入选择或跳连动作会导致性能下降约 4 %,验证了每个组件的贡献。
  • 训练效率:得益于动态转移采样器,PPO4Pred 的收敛速度比普通 PPO 快约 30 %,在相同硬件上表现更佳。

实际影响

  • 更好的资源利用 – 通过学习跳过不相关的隐藏更新,模型减少了不必要的计算,这可以转化为在边缘设备(例如监控传感器流的物联网网关)上的推理延迟降低。
  • 自适应预测流水线 – 该策略可以在新数据上重新训练,而无需重新设计整个 RNN 架构,从而更容易集成到已经依赖 LSTM/GRU 模型的现有时间序列平台中。
  • 可解释性钩子 – 动作(选择了哪些时间戳、跳过了哪些更新)提供了模型为何关注特定时间段的透明视图,有助于在能源或金融等受监管行业的调试和合规。
  • 即插即用升级 – 由于 RRE 位于任何标准循环单元之上,团队可以通过替换为 RRE‑PPO4Pred 包装器来升级传统预测服务,而无需从头重建。

限制与未来工作

  • 训练复杂性 – 共进化循环增加了额外的超参数(例如 PPO 剪裁、转移采样调度),需要仔细调优,可能提升小团队的门槛。
  • 对超长预测范围的可扩展性 – 虽然该方法在几百步的预测范围内表现出色,但随着窗口大小的增大,动作空间也会扩大,作者指出在此之后收益递减。
  • 领域特定的奖励塑形 – 目前的奖励是通用的负损失;如果将其定制为业务指标(例如,低估预测的成本),可能进一步提升实际影响。
  • 建议的未来方向 包括:
    1. 在多时间分辨率上运行的层次化策略。
    2. 将外部协变量(天气、事件)纳入决策过程。
    3. 将框架扩展到多模态时间序列(例如,视频 + 传感器流)。

Authors

  • Xin Lai
  • Shiming Deng
  • Lu Yu
  • Yumin Lai
  • Shenghao Qiao
  • Xinze Zhang

论文信息

  • arXiv ID: 2601.03683v1
  • Categories: cs.LG, cs.NE
  • Published: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »