[Paper] 随机 Actor-Critic：通过时间性 Aleatoric 不确定性缓解高估

发布: 1个月前 (2026年1月3日 GMT+8 00:33)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.00737v1

概览

本文介绍了 Stochastic Actor‑Critic (STAC)，一种新的离策略强化学习算法，旨在解决演员‑评论家方法中长期存在的价值高估问题。STAC 并不依赖昂贵的集成方法来估计认知（模型）不确定性，而是利用 temporal aleatoric uncertainty——即转移、奖励以及策略引起的变动的固有随机性——在 TD 更新中注入一种原则性的悲观偏置。其结果是一个更具样本效率、计算开销更低的算法，同时在随机环境中表现出规避风险的行为。

关键贡献

Aleatoric‑based 悲观性: 使用一步 aleatoric 不确定性（来自随机动力学）来缩放 TD 更新中的悲观项，消除对基于 ensemble 的 epistemic 不确定性估计的需求。
单一分布式评论家: 引入一个分布式评论家，直接建模完整的回报分布，提供均值价值和来自单个网络的不确定性。
对 actor 和 critic 的 Dropout 正则化: 对两个网络都使用 dropout，提高训练稳定性，并作为隐式贝叶斯近似以处理额外的不确定性。
计算效率: 在使用更少的参数和前向传播次数的情况下，实现与基于 ensemble 的基线相当或更优的性能。
风险规避策略的出现: 证明 aleatoric 驱动的悲观性自然导致在随机环境中避免高方差（风险）结果的策略。

方法论

分布式评论家:
- 评论家输出一个参数化分布（例如，高斯或分类）而不是单一标量 Q 值，描述一步回报。
- 该分布的均值作为常规的价值估计；方差捕捉随机不确定性。
时序‑随机悲观性:
- 在计算 TD 目标 ( y = r + \gamma \hat{Q}(s’,a’) ) 时，STAC 减去一个与预测方差成比例的 悲观项：

[ y_{\text{pess}} = r + \gamma \big( \mu_{Q}(s’,a’) - \beta \sigma_{Q}(s’,a’) \big) ]

(\beta) 为可调系数，控制保守程度。

Dropout 作为贝叶斯近似:
- 演员和评论家网络在训练和推理时都使用 dropout。这样产生的随机前向传播进一步捕捉模型不确定性，无需维护多个网络副本。
学习循环:
- 从回放缓冲区采样一个小批量。
- 使用悲观目标计算分布式 TD 误差。
- 通过最小化分布式损失（如分位回归或 KL 散度）更新评论家。
- 使用悲观 Q 估计作为优势信号，通过策略梯度更新演员。
实现简洁性:
- 无需管理集成模型，除常规软更新外不需要额外的目标网络，每个样本只需一次前向传播。

结果与发现

环境	基线（例如 SAC，Ensemble‑TD3）	STAC（均值 ± 标准差）	过估计差距
MuJoCo Hopper（确定性）	3450 ± 120	3520 ± 95	↓ 0.3%
MuJoCo HalfCheetah（随机）	4800 ± 210	4925 ± 180	↓ 1.2%
Stochastic GridWorld（风险敏感）	0.68 成功率	0.81 成功率	↓ 0.15（风险规避）

过估计缓解：STAC 的悲观目标始终降低了预测回报与真实回报之间的偏差，衡量指标为“过估计差距”。
样本效率：在环境步数减少约 30% 的情况下，仍实现了与集成方法相当的性能。
稳定性：训练曲线在不同随机种子下方差更低，这归因于 dropout 正则化。
风险规避行为：在转移噪声较大的环境中，STAC 更倾向于安全动作（例如，避免滑动的格子），且未使用任何显式的风险惩罚项。

实际意义

更快的原型开发： 开发者可以用单个分布式网络取代基于集成的评论者（后者每次更新需要多次前向传播），从而降低 GPU 内存和计算成本。
更安全的强化学习部署： 内置的随机悲观性使得策略自然地对随机性进行对冲——这在机器人技术、自动驾驶或金融等对最坏情况敏感的领域尤为有用。
Dropout 作为即插即用的正则化器： 在现有的 actor‑critic 代码库中添加 dropout 层非常简单，同时它既提供正则化，又提供额外的不确定性信号。
简化超参数调优： 唯一新增的调节参数是悲观系数 (\beta)；作者报告了一个在各领域均表现稳健的默认值（(\beta \approx 0.5)）。
兼容性： 只需替换评论者实现并加入 dropout，即可将 STAC 集成到流行的库（如 Stable‑Baselines3、RLlib）中，使其对缺乏深度强化学习经验的工程师也易于使用。

限制与未来工作

随机性关注（Aleatoric focus）： 该方法假设大多数高估来源于随机性；在高度确定但数据稀缺的情形下，认知不确定性（epistemic uncertainty）仍可能占主导。
分布选择： 论文采用了简单的高斯参数化；更丰富的分布族（例如分类分布或混合模型）可以更准确地捕捉多模态回报。
对高维观测空间的可扩展性： 实验仅局限于标准的连续控制基准；将 STAC 应用于基于视觉的任务（如 Atari、3D 导航）可能需要对网络结构进行调整。
自适应 (\beta)： 未来工作可以探索在线学习悲观系数的方法，甚至根据环境统计信息进行条件化。
理论保证： 虽然实证结果表现强劲，但在随机性悲观（aleatoric pessimism）下的收敛性形式化分析仍是一个未解的研究方向。

作者

Uğurcan Özalp

论文信息

arXiv ID: 2601.00737v1
分类: cs.LG, cs.AI, eess.SY
出版日期: 2026年1月2日
PDF: Download PDF

[Paper] 随机 Actor-Critic：通过时间性 Aleatoric 不确定性缓解高估

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] 理性几何：有效数学推理的谱特征

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

[Paper] 分类重新参数化与去噪扩散模型