[Paper] 非平稳环境中的离线强化学习预测

发布: (2025年12月2日 GMT+8 02:45)
8 min read
原文: arXiv

Source: arXiv - 2512.01987v1

概览

离线强化学习(RL)有望将静态数据集转化为高性能策略,而无需昂贵的在线交互。全新的 FORL 框架解决了一个显著的盲点:大多数离线 RL 方法假设环境保持不变,但真实世界系统(机器人、金融、物联网)常常会出现突发的、随时间变化的偏移,使环境变得部分可观测。FORL 将基于扩散的状态生成与零样本时间序列预测相结合,为智能体提供对可能未来动态的“前瞻”,从而在回合的第一步起就实现鲁棒决策。

主要贡献

  • 统一的预测流水线:将条件扩散模型(用于生成合理的未来状态)与现成的零样本时间序列基础模型相耦合。
  • 模式无关的训练:扩散模型学习预测候选状态,无需对非平稳偏移的形状或频率作任何先验假设。
  • 零样本适配:在目标非平稳数据上无需额外微调;预测组件可直接使用。
  • 基准增强:在标准离线 RL 套件中加入真实世界的时间序列扰动(如传感器漂移、市场冲击),用于评估非平稳鲁棒性。
  • **在多个领域上相较于强基线(CQL、IQL、BCQ)实现一致的性能提升,展示了预测增强策略的实际价值。

方法论

  1. 数据准备 – 离线数据集仍然按 (状态, 动作, 奖励, 下一个状态) 元组划分。同时,收集一条平行的时间序列流(例如传感器读数、市场指数),用于捕获隐藏的非平稳因素。
  2. 条件扩散模型 – 训练一个扩散网络,在当前状态和观测到的时间序列上下文条件下生成 候选未来状态。由于扩散模型通过迭代去噪随机噪声来工作,它们能够建模复杂的、多模态的未来分布,而不必局限于单一确定性预测。
  3. 零样本预测 – 预训练的时间序列基础模型(如在数百万传感器/金融序列上训练的大型 Transformer)接受最近的上下文并输出隐藏偏移的短期预测。该预测作为额外的条件变量输入到扩散模型中。
  4. 策略集成 – 离线 RL 算法(例如 CQL)在策略评估时接收扩散生成的候选状态作为 增强输入。智能体在一系列合理的未来状态分布下选择最大化期望回报的动作,等效于对未知偏移进行“规划”。
  5. 推理(零样本) – 测试时,流水线端到端运行:基础模型预测偏移,扩散模型采样候选状态,策略选取动作——整个过程无需在新环境上进行额外训练。

结果与发现

环境(增强后)基线 (CQL)FORL (CQL + 预测)提升百分比
MuJoCo Hopper + 传感器漂移78.385.7+9.5%
AntMaze + 市场冲击偏移62.170.4+13.4%
真实世界 HVAC 控制(温度漂移)71.878.9+9.9%
  • 从回合开始即具备鲁棒性:不同于只能在几步后才适应的方法,FORL 已经能够预见偏移,降低了“冷启动”时的性能下降。
  • 泛化能力:相同的扩散+预测流水线在机器人与金融等截然不同的动态环境中均可直接使用,无需领域特定调参。
  • 消融实验:去除扩散组件(仅使用原始预测)会导致性能下降约 5%,验证了对未来状态不确定性建模的重要性。

实际意义

  • 可部署的离线 RL:企业可以在历史日志上训练策略,并安全地在已知会漂移的环境中上线(如预测性维护、算法交易)。
  • 零样本适应性:当新增传感器或市场 regime 变化时,无需收集新交互数据或重新训练 RL 模型——只需接入最新的时间序列预测。
  • 安全关键系统:在工厂中面临磨损的机器人或在恶劣天气下传感器偏差的自动驾驶车辆,可借助提前预警功能降低灾难性失误。
  • 工具链集成:扩散模型可使用主流库(PyTorch、Diffusers)实现,预测骨干可采用任意大型预训练 Transformer(如 TimeSeries‑GPT),从而与现有机器学习流水线兼容。

局限性与未来工作

  • 预测时域:当前设置假设短期预测(几秒或几步)。若要扩展到更长时域,可能需要层次化扩散或递归条件化。
  • 计算开销:从扩散模型采样会增加延迟;可探索轻量化替代方案(如基于流的生成器)以满足实时约束。
  • 部分可观测性:虽然 FORL 能缓解隐藏偏移,但仍依赖于存在相关的时间序列信号。缺乏此类辅助数据的环境仍然具有挑战性。
  • 理论保证:预测误差如何在 RL 目标中传播的形式化分析仍是未解问题,作者计划在后续工作中予以探讨。

结论:FORL 表明,将现代生成式预测与离线 RL 结合,可弥合静态训练数据与生产系统中混乱、漂移现实之间的鸿沟,为更可靠、零样本可部署的智能体打开了大门。

作者

  • Suzan Ece Ada
  • Georg Martius
  • Emre Ugur
  • Erhan Oztop

论文信息

  • arXiv ID: 2512.01987v1
  • 分类: cs.LG, cs.AI, cs.RO
  • 发布日期: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »