[Paper] 乐观World Models:在基于模型的深度强化学习中的高效探索
Source: arXiv - 2602.10044v1
概述
论文 “Optimistic World Models: Efficient Exploration in Model‑Based Deep Reinforcement Learning” 解决了强化学习(RL)中最棘手的问题之一——在奖励稀缺时如何有效探索。通过将经典控制思想(reward‑biased maximum‑likelihood estimation)与现代 world‑model 架构相结合,作者提出了一种轻量级、基于梯度的方法,使智能体 optimistically 想象更好的未来,从而实现更快的学习和更高的回报。
关键贡献
- 乐观世界模型 (OWMs): 一个新框架,将乐观直接注入动力学学习损失,使想象的轨迹倾向于更高奖励的结果。
- 即插即用设计: OWM 只需对现有世界模型流水线进行少量修改(无需额外的不确定性估计器,也不需要约束优化)。
- 两个具体实现:
- Optimistic DreamerV3 – 基于 DreamerV3 架构构建。
- Optimistic STORM – 基于 STORM 世界模型构建。
- 实证提升: 与非乐观基线相比,两种变体在一系列稀疏奖励基准上显著提升了样本效率和累计奖励。
- 理论依据: 将该方法与自适应控制中的奖励偏置最大似然估计(RBMLE)联系起来,为乐观偏差提供了原理性的解释。
方法论
-
World‑model backbone: 代理学习一个潜在动力学模型(例如循环状态空间模型),该模型能够生成用于规划的想象 rollout。
-
Optimistic dynamics loss: 与通常对所有观测转移一视同仁的最大似然损失不同,OWM 在损失中加入了奖励偏置项。该损失鼓励模型为导致更高预测奖励的转移分配更高的概率,从而在想象的未来中“拉伸”向更有前景的状态。
-
Gradient‑only update: 增强后的损失是可微的;模型参数使用标准的随机梯度下降进行更新,使整个流水线保持端到端可训练。
-
Integration with policy learning: 乐观模型用于生成想象轨迹,这些轨迹再喂给策略/价值网络(如 DreamerV3 或 STORM 中的做法)。由于想象的 rollout 已经倾向于高奖励结果,策略自然会收到更丰富的学习信号,而无需任何显式的探索奖励。
-
Training loop: 不需要额外的不确定性估计(例如 ensemble)或置信上界计算——只需使用修改后的损失以及常规的世界模型训练调度即可。
结果与发现
| 环境(稀疏奖励) | 基线(DreamerV3 / STORM) | 乐观变体 | 样本效率提升 |
|---|---|---|---|
| Mini‑Grid (DoorKey) | 45 % 成功率(1M 步后) | 78 % 成功率(1M 步后) | +73 % |
| Atari (Montezuma’s Revenge) | 0.3 % 分数(2M 帧后) | 1.2 % 分数(2M 帧后) | +300 % |
| DeepMind Control (Sparse‑Cartpole) | 150 奖励 | 260 奖励 | +73 % |
- 累计回报: 在所有任务中,乐观版本始终优于基线,通常能够以 减少 30‑50 % 的环境交互次数 达到相同的性能。
- 稳定性: 训练曲线显示出更平滑的收敛,表明乐观偏置通过关注奖励相关的动态也起到了正则化模型的作用。
- 消融实验: 移除乐观项后性能回落至基线水平,确认提升来源于该偏置,而非偶然的超参数变化。
实际意义
- 更快的原型制作: 开发者只需对损失函数进行一次微调,即可将 OWM(Optimistic World Models)插入现有的世界模型代码库(如 DreamerV3、STORM 等),从而大幅缩短在稀疏奖励环境中获得有效策略所需的实际时间。
- 降低计算成本: 由于 OWM 规避了集成或显式不确定性估计,它们保持了低内存和计算开销——这对边缘设备或大规模训练流水线尤为重要。
- 在安全关键场景下更好的探索: 在机器人或自主系统中,危险的探索代价高昂,乐观偏置的模型能够引导想象的 rollout 朝向安全且高回报的行为,而无需进行风险极高的真实试验。
- 兼容下游工具: 该方法可与任何使用想象轨迹的下游规划器(例如模型预测控制、策略梯度)配合使用,使其成为模型驱动强化学习工具箱的多功能补充。
限制与未来工作
- Bias‑variance trade‑off: 过度乐观可能导致模型产生不切实际的高奖励状态,尤其在高度随机的环境中。论文指出需要在模型预测精度低时抑制偏差的机制。
- Sparse‑reward focus: 实验集中在奖励极少的环境中;在密集奖励设置下的性能提升尚不明确。
- Theoretical guarantees: 虽然 RBMLE 提供了坚实的直觉,但深度 OWM 的正式后悔界限尚未建立。
- Future directions: 作者提出 (1) 乐观权重的自适应调度,(2) 将 OWM 与具备不确定性感知的集成方法结合以提升鲁棒性,(3) 将该框架扩展到多智能体和层次化强化学习场景。
作者
- Akshay Mete
- Shahid Aamir Sheikh
- Tzu‑Hsiang Lin
- Dileep Kalathil
- P. R. Kumar
论文信息
- arXiv ID: 2602.10044v1
- 分类: cs.LG, cs.AI, eess.SY
- 发表日期: 2026年2月10日
- PDF: 下载 PDF