[Paper] 乐观World Models：在基于模型的深度强化学习中的高效探索

发布: 2天前 (2026年2月11日 GMT+8 02:11)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10044v1

概述

论文 “Optimistic World Models: Efficient Exploration in Model‑Based Deep Reinforcement Learning” 解决了强化学习（RL）中最棘手的问题之一——在奖励稀缺时如何有效探索。通过将经典控制思想（reward‑biased maximum‑likelihood estimation）与现代 world‑model 架构相结合，作者提出了一种轻量级、基于梯度的方法，使智能体 optimistically 想象更好的未来，从而实现更快的学习和更高的回报。

关键贡献

乐观世界模型 (OWMs)： 一个新框架，将乐观直接注入动力学学习损失，使想象的轨迹倾向于更高奖励的结果。
即插即用设计： OWM 只需对现有世界模型流水线进行少量修改（无需额外的不确定性估计器，也不需要约束优化）。
两个具体实现：
- Optimistic DreamerV3 – 基于 DreamerV3 架构构建。
- Optimistic STORM – 基于 STORM 世界模型构建。
实证提升： 与非乐观基线相比，两种变体在一系列稀疏奖励基准上显著提升了样本效率和累计奖励。
理论依据： 将该方法与自适应控制中的奖励偏置最大似然估计（RBMLE）联系起来，为乐观偏差提供了原理性的解释。

方法论

World‑model backbone: 代理学习一个潜在动力学模型（例如循环状态空间模型），该模型能够生成用于规划的想象 rollout。
Optimistic dynamics loss: 与通常对所有观测转移一视同仁的最大似然损失不同，OWM 在损失中加入了奖励偏置项。该损失鼓励模型为导致更高预测奖励的转移分配更高的概率，从而在想象的未来中“拉伸”向更有前景的状态。
Gradient‑only update: 增强后的损失是可微的；模型参数使用标准的随机梯度下降进行更新，使整个流水线保持端到端可训练。
Integration with policy learning: 乐观模型用于生成想象轨迹，这些轨迹再喂给策略/价值网络（如 DreamerV3 或 STORM 中的做法）。由于想象的 rollout 已经倾向于高奖励结果，策略自然会收到更丰富的学习信号，而无需任何显式的探索奖励。
Training loop: 不需要额外的不确定性估计（例如 ensemble）或置信上界计算——只需使用修改后的损失以及常规的世界模型训练调度即可。

结果与发现

环境（稀疏奖励）	基线（DreamerV3 / STORM）	乐观变体	样本效率提升
Mini‑Grid (DoorKey)	45 % 成功率（1M 步后）	78 % 成功率（1M 步后）	+73 %
Atari (Montezuma’s Revenge)	0.3 % 分数（2M 帧后）	1.2 % 分数（2M 帧后）	+300 %
DeepMind Control (Sparse‑Cartpole)	150 奖励	260 奖励	+73 %

累计回报: 在所有任务中，乐观版本始终优于基线，通常能够以 减少 30‑50 % 的环境交互次数 达到相同的性能。
稳定性: 训练曲线显示出更平滑的收敛，表明乐观偏置通过关注奖励相关的动态也起到了正则化模型的作用。
消融实验: 移除乐观项后性能回落至基线水平，确认提升来源于该偏置，而非偶然的超参数变化。

实际意义

更快的原型制作: 开发者只需对损失函数进行一次微调，即可将 OWM（Optimistic World Models）插入现有的世界模型代码库（如 DreamerV3、STORM 等），从而大幅缩短在稀疏奖励环境中获得有效策略所需的实际时间。
降低计算成本: 由于 OWM 规避了集成或显式不确定性估计，它们保持了低内存和计算开销——这对边缘设备或大规模训练流水线尤为重要。
在安全关键场景下更好的探索: 在机器人或自主系统中，危险的探索代价高昂，乐观偏置的模型能够引导想象的 rollout 朝向安全且高回报的行为，而无需进行风险极高的真实试验。
兼容下游工具: 该方法可与任何使用想象轨迹的下游规划器（例如模型预测控制、策略梯度）配合使用，使其成为模型驱动强化学习工具箱的多功能补充。

限制与未来工作

Bias‑variance trade‑off: 过度乐观可能导致模型产生不切实际的高奖励状态，尤其在高度随机的环境中。论文指出需要在模型预测精度低时抑制偏差的机制。
Sparse‑reward focus: 实验集中在奖励极少的环境中；在密集奖励设置下的性能提升尚不明确。
Theoretical guarantees: 虽然 RBMLE 提供了坚实的直觉，但深度 OWM 的正式后悔界限尚未建立。
Future directions: 作者提出 (1) 乐观权重的自适应调度，(2) 将 OWM 与具备不确定性感知的集成方法结合以提升鲁棒性，(3) 将该框架扩展到多智能体和层次化强化学习场景。

作者

Akshay Mete
Shahid Aamir Sheikh
Tzu‑Hsiang Lin
Dileep Kalathil
P. R. Kumar

论文信息

arXiv ID: 2602.10044v1
分类: cs.LG, cs.AI, eess.SY
发表日期: 2026年2月10日
PDF: 下载 PDF

[Paper] 乐观World Models：在基于模型的深度强化学习中的高效探索

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用