[Paper] 乐观World Models:在基于模型的深度强化学习中的高效探索

发布: (2026年2月11日 GMT+8 02:11)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10044v1

概述

论文 “Optimistic World Models: Efficient Exploration in Model‑Based Deep Reinforcement Learning” 解决了强化学习(RL)中最棘手的问题之一——在奖励稀缺时如何有效探索。通过将经典控制思想(reward‑biased maximum‑likelihood estimation)与现代 world‑model 架构相结合,作者提出了一种轻量级、基于梯度的方法,使智能体 optimistically 想象更好的未来,从而实现更快的学习和更高的回报。

关键贡献

  • 乐观世界模型 (OWMs): 一个新框架,将乐观直接注入动力学学习损失,使想象的轨迹倾向于更高奖励的结果。
  • 即插即用设计: OWM 只需对现有世界模型流水线进行少量修改(无需额外的不确定性估计器,也不需要约束优化)。
  • 两个具体实现:
    • Optimistic DreamerV3 – 基于 DreamerV3 架构构建。
    • Optimistic STORM – 基于 STORM 世界模型构建。
  • 实证提升: 与非乐观基线相比,两种变体在一系列稀疏奖励基准上显著提升了样本效率和累计奖励。
  • 理论依据: 将该方法与自适应控制中的奖励偏置最大似然估计(RBMLE)联系起来,为乐观偏差提供了原理性的解释。

方法论

  1. World‑model backbone: 代理学习一个潜在动力学模型(例如循环状态空间模型),该模型能够生成用于规划的想象 rollout。

  2. Optimistic dynamics loss: 与通常对所有观测转移一视同仁的最大似然损失不同,OWM 在损失中加入了奖励偏置项。该损失鼓励模型为导致更高预测奖励的转移分配更高的概率,从而在想象的未来中“拉伸”向更有前景的状态。

  3. Gradient‑only update: 增强后的损失是可微的;模型参数使用标准的随机梯度下降进行更新,使整个流水线保持端到端可训练。

  4. Integration with policy learning: 乐观模型用于生成想象轨迹,这些轨迹再喂给策略/价值网络(如 DreamerV3 或 STORM 中的做法)。由于想象的 rollout 已经倾向于高奖励结果,策略自然会收到更丰富的学习信号,而无需任何显式的探索奖励。

  5. Training loop: 不需要额外的不确定性估计(例如 ensemble)或置信上界计算——只需使用修改后的损失以及常规的世界模型训练调度即可。

结果与发现

环境(稀疏奖励)基线(DreamerV3 / STORM)乐观变体样本效率提升
Mini‑Grid (DoorKey)45 % 成功率(1M 步后)78 % 成功率(1M 步后)+73 %
Atari (Montezuma’s Revenge)0.3 % 分数(2M 帧后)1.2 % 分数(2M 帧后)+300 %
DeepMind Control (Sparse‑Cartpole)150 奖励260 奖励+73 %
  • 累计回报: 在所有任务中,乐观版本始终优于基线,通常能够以 减少 30‑50 % 的环境交互次数 达到相同的性能。
  • 稳定性: 训练曲线显示出更平滑的收敛,表明乐观偏置通过关注奖励相关的动态也起到了正则化模型的作用。
  • 消融实验: 移除乐观项后性能回落至基线水平,确认提升来源于该偏置,而非偶然的超参数变化。

实际意义

  • 更快的原型制作: 开发者只需对损失函数进行一次微调,即可将 OWM(Optimistic World Models)插入现有的世界模型代码库(如 DreamerV3、STORM 等),从而大幅缩短在稀疏奖励环境中获得有效策略所需的实际时间。
  • 降低计算成本: 由于 OWM 规避了集成或显式不确定性估计,它们保持了低内存和计算开销——这对边缘设备或大规模训练流水线尤为重要。
  • 在安全关键场景下更好的探索: 在机器人或自主系统中,危险的探索代价高昂,乐观偏置的模型能够引导想象的 rollout 朝向安全且高回报的行为,而无需进行风险极高的真实试验。
  • 兼容下游工具: 该方法可与任何使用想象轨迹的下游规划器(例如模型预测控制、策略梯度)配合使用,使其成为模型驱动强化学习工具箱的多功能补充。

限制与未来工作

  • Bias‑variance trade‑off: 过度乐观可能导致模型产生不切实际的高奖励状态,尤其在高度随机的环境中。论文指出需要在模型预测精度低时抑制偏差的机制。
  • Sparse‑reward focus: 实验集中在奖励极少的环境中;在密集奖励设置下的性能提升尚不明确。
  • Theoretical guarantees: 虽然 RBMLE 提供了坚实的直觉,但深度 OWM 的正式后悔界限尚未建立。
  • Future directions: 作者提出 (1) 乐观权重的自适应调度,(2) 将 OWM 与具备不确定性感知的集成方法结合以提升鲁棒性,(3) 将该框架扩展到多智能体和层次化强化学习场景。

作者

  • Akshay Mete
  • Shahid Aamir Sheikh
  • Tzu‑Hsiang Lin
  • Dileep Kalathil
  • P. R. Kumar

论文信息

  • arXiv ID: 2602.10044v1
  • 分类: cs.LG, cs.AI, eess.SY
  • 发表日期: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »