[Paper] 重新思考用于时间序列预测的循环神经网络：一种强化循环编码器与面向预测的近端策略优化

发布: 1个月前 (2026年1月7日 GMT+8 16:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03683v1

概述

本文介绍了 RRE‑PPO4Pred，这是一种用于提升循环神经网络（RNN）在时间序列预测任务中表现的新方法。通过将 RNN 的隐藏状态动态视为决策问题，并使用面向预测的近端策略优化（PPO）变体来训练强化学习（RL）代理，作者在多个真实世界数据集上实现了相较于传统 RNN 基线和近期基于 Transformer 的预测模型更高且更稳定的准确率。

关键贡献

Reinforced Recurrent Encoder (RRE) – 将 RNN 的内部操作（特征选择、隐藏状态跳过和输出目标选择）视为马尔可夫决策过程，使模型能够学习何时与何处集中注意力。
Prediction‑oriented PPO (PPO4Pred) – 一种定制的 PPO 算法，使用轻量级 Transformer 作为策略网络，添加直接奖励预测质量的损失项，并采用动态转移采样方案以降低梯度估计的方差。
Co‑evolutionary training loop – 同时优化基础 RNN 预测器和 RL 策略，使它们在训练过程中相互适应、共同提升。
Empirical superiority – 在五个多样且具行业相关性的时间序列基准上进行的大量实验表明，RRE‑PPO4Pred 超越了强大的 RNN 基线、经典统计模型，甚至最先进的 Transformer 预测器。

方法论

Problem framing – 预测任务被划分为两个相互作用的组件：
- 一个 RNN encoder‑decoder，仍然处理原始序列，但现在接收 policy‑guided 输入（例如，关注哪些过去的时间戳）。
- 一个 policy agent（一个小型 Transformer），观察当前的隐藏状态并决定三项动作：
  1. Input feature selection – 选择滑动窗口中的一个子集作为前向输入。
  2. Hidden‑state skip connection – 可选地跳过某些循环更新，以避免对噪声步骤的过拟合。
  3. Target selection – 在当前步选择要预测的未来时段（或多个时段）。
Markov Decision Process (MDP) – 每个时间步构成一个状态；智能体的动作将 RNN 转移到下一个状态。奖励被定义为预测损失的负值（例如 MAE），在 RNN 产生预测后计算，以鼓励直接提升准确性的动作。
PPO4Pred – 经典 PPO 目标被加入 prediction‑oriented 项，以惩罚大的预测误差，并且对高维动作空间的裁剪机制进行了调优。Transformer 策略使用 dynamically sampled 转移的 mini‑batch 进行训练，从而将学习集中在信息量大的状态上（例如波动性高的时期）。
Co‑evolutionary loop – 训练在以下两者之间交替进行：
- 使用标准反向传播在预测损失上更新 RNN 参数（以当前策略为条件）。
- 通过 PPO4Pred 更新策略网络，使用最新的 RNN 预测作为环境反馈的一部分。
这种来回迭代持续至收敛，最终得到紧密耦合的预测器‑策略对。

结果与发现

数据集	基线 RNN（如 LSTM）	最佳 Transformer	RRE‑PPO4Pred
Electricity (96‑step)	0.112 RMSE	0.098 RMSE	0.087 RMSE
Traffic (48‑step)	0.145 MAE	0.132 MAE	0.119 MAE
Weather (24‑step)	0.067 MAPE	0.064 MAPE	0.058 MAPE
…	…	…	…

持续提升：相较于最强的 Transformer 基线，提升幅度为 5–12 %。
消融研究表明，去除策略引导的输入选择或跳连动作会导致性能下降约 4 %，验证了每个组件的贡献。
训练效率：得益于动态转移采样器，PPO4Pred 的收敛速度比普通 PPO 快约 30 %，在相同硬件上表现更佳。

实际影响

更好的资源利用 – 通过学习跳过不相关的隐藏更新，模型减少了不必要的计算，这可以转化为在边缘设备（例如监控传感器流的物联网网关）上的推理延迟降低。
自适应预测流水线 – 该策略可以在新数据上重新训练，而无需重新设计整个 RNN 架构，从而更容易集成到已经依赖 LSTM/GRU 模型的现有时间序列平台中。
可解释性钩子 – 动作（选择了哪些时间戳、跳过了哪些更新）提供了模型为何关注特定时间段的透明视图，有助于在能源或金融等受监管行业的调试和合规。
即插即用升级 – 由于 RRE 位于任何标准循环单元之上，团队可以通过替换为 RRE‑PPO4Pred 包装器来升级传统预测服务，而无需从头重建。

限制与未来工作

训练复杂性 – 共进化循环增加了额外的超参数（例如 PPO 剪裁、转移采样调度），需要仔细调优，可能提升小团队的门槛。
对超长预测范围的可扩展性 – 虽然该方法在几百步的预测范围内表现出色，但随着窗口大小的增大，动作空间也会扩大，作者指出在此之后收益递减。
领域特定的奖励塑形 – 目前的奖励是通用的负损失；如果将其定制为业务指标（例如，低估预测的成本），可能进一步提升实际影响。
建议的未来方向 包括：
1. 在多时间分辨率上运行的层次化策略。
2. 将外部协变量（天气、事件）纳入决策过程。
3. 将框架扩展到多模态时间序列（例如，视频 + 传感器流）。

Authors

Xin Lai
Shiming Deng
Lu Yu
Yumin Lai
Shenghao Qiao
Xinze Zhang

论文信息

arXiv ID: 2601.03683v1
Categories: cs.LG, cs.NE
Published: 2026年1月7日
PDF: 下载 PDF

[Paper] 重新思考用于时间序列预测的循环神经网络：一种强化循环编码器与面向预测的近端策略优化

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

Authors

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性