[Paper] 重新思考用于时间序列预测的循环神经网络:一种强化循环编码器与面向预测的近端策略优化
Source: arXiv - 2601.03683v1
概述
本文介绍了 RRE‑PPO4Pred,这是一种用于提升循环神经网络(RNN)在时间序列预测任务中表现的新方法。通过将 RNN 的隐藏状态动态视为决策问题,并使用面向预测的近端策略优化(PPO)变体来训练强化学习(RL)代理,作者在多个真实世界数据集上实现了相较于传统 RNN 基线和近期基于 Transformer 的预测模型更高且更稳定的准确率。
关键贡献
- Reinforced Recurrent Encoder (RRE) – 将 RNN 的内部操作(特征选择、隐藏状态跳过和输出目标选择)视为马尔可夫决策过程,使模型能够学习 何时 与 何处 集中注意力。
- Prediction‑oriented PPO (PPO4Pred) – 一种定制的 PPO 算法,使用轻量级 Transformer 作为策略网络,添加直接奖励预测质量的损失项,并采用动态转移采样方案以降低梯度估计的方差。
- Co‑evolutionary training loop – 同时优化基础 RNN 预测器和 RL 策略,使它们在训练过程中相互适应、共同提升。
- Empirical superiority – 在五个多样且具行业相关性的时间序列基准上进行的大量实验表明,RRE‑PPO4Pred 超越了强大的 RNN 基线、经典统计模型,甚至最先进的 Transformer 预测器。
方法论
-
Problem framing – 预测任务被划分为两个相互作用的组件:
- 一个 RNN encoder‑decoder,仍然处理原始序列,但现在接收 policy‑guided 输入(例如,关注哪些过去的时间戳)。
- 一个 policy agent(一个小型 Transformer),观察当前的隐藏状态并决定三项动作:
- Input feature selection – 选择滑动窗口中的一个子集作为前向输入。
- Hidden‑state skip connection – 可选地跳过某些循环更新,以避免对噪声步骤的过拟合。
- Target selection – 在当前步选择要预测的未来时段(或多个时段)。
-
Markov Decision Process (MDP) – 每个时间步构成一个状态;智能体的动作将 RNN 转移到下一个状态。奖励被定义为预测损失的负值(例如 MAE),在 RNN 产生预测后计算,以鼓励直接提升准确性的动作。
-
PPO4Pred – 经典 PPO 目标被加入 prediction‑oriented 项,以惩罚大的预测误差,并且对高维动作空间的裁剪机制进行了调优。Transformer 策略使用 dynamically sampled 转移的 mini‑batch 进行训练,从而将学习集中在信息量大的状态上(例如波动性高的时期)。
-
Co‑evolutionary loop – 训练在以下两者之间交替进行:
- 使用标准反向传播在预测损失上更新 RNN 参数(以当前策略为条件)。
- 通过 PPO4Pred 更新策略网络,使用最新的 RNN 预测作为环境反馈的一部分。
这种来回迭代持续至收敛,最终得到紧密耦合的预测器‑策略对。
结果与发现
| 数据集 | 基线 RNN(如 LSTM) | 最佳 Transformer | RRE‑PPO4Pred |
|---|---|---|---|
| Electricity (96‑step) | 0.112 RMSE | 0.098 RMSE | 0.087 RMSE |
| Traffic (48‑step) | 0.145 MAE | 0.132 MAE | 0.119 MAE |
| Weather (24‑step) | 0.067 MAPE | 0.064 MAPE | 0.058 MAPE |
| … | … | … | … |
- 持续提升:相较于最强的 Transformer 基线,提升幅度为 5–12 %。
- 消融研究表明,去除策略引导的输入选择或跳连动作会导致性能下降约 4 %,验证了每个组件的贡献。
- 训练效率:得益于动态转移采样器,PPO4Pred 的收敛速度比普通 PPO 快约 30 %,在相同硬件上表现更佳。
实际影响
- 更好的资源利用 – 通过学习跳过不相关的隐藏更新,模型减少了不必要的计算,这可以转化为在边缘设备(例如监控传感器流的物联网网关)上的推理延迟降低。
- 自适应预测流水线 – 该策略可以在新数据上重新训练,而无需重新设计整个 RNN 架构,从而更容易集成到已经依赖 LSTM/GRU 模型的现有时间序列平台中。
- 可解释性钩子 – 动作(选择了哪些时间戳、跳过了哪些更新)提供了模型为何关注特定时间段的透明视图,有助于在能源或金融等受监管行业的调试和合规。
- 即插即用升级 – 由于 RRE 位于任何标准循环单元之上,团队可以通过替换为 RRE‑PPO4Pred 包装器来升级传统预测服务,而无需从头重建。
限制与未来工作
- 训练复杂性 – 共进化循环增加了额外的超参数(例如 PPO 剪裁、转移采样调度),需要仔细调优,可能提升小团队的门槛。
- 对超长预测范围的可扩展性 – 虽然该方法在几百步的预测范围内表现出色,但随着窗口大小的增大,动作空间也会扩大,作者指出在此之后收益递减。
- 领域特定的奖励塑形 – 目前的奖励是通用的负损失;如果将其定制为业务指标(例如,低估预测的成本),可能进一步提升实际影响。
- 建议的未来方向 包括:
- 在多时间分辨率上运行的层次化策略。
- 将外部协变量(天气、事件)纳入决策过程。
- 将框架扩展到多模态时间序列(例如,视频 + 传感器流)。
Authors
- Xin Lai
- Shiming Deng
- Lu Yu
- Yumin Lai
- Shenghao Qiao
- Xinze Zhang
论文信息
- arXiv ID: 2601.03683v1
- Categories: cs.LG, cs.NE
- Published: 2026年1月7日
- PDF: 下载 PDF