[Paper] 指数效用的强化学习：折扣MDP中的算法与收敛性

发布: 3天前 (2026年5月9日 GMT+8 01:41)

9 分钟阅读

原文: arXiv

Source: arXiv - 2605.08053v1

Overview

本文解决了强化学习（RL）中长期存在的一个空白：如何在折扣马尔可夫决策过程（MDP）中学习能够 优化指数效用（风险厌恶）目标 的策略。传统的 RL 侧重于最大化期望累计奖励，而许多实际系统（金融、机器人、云资源分配）关注风险。作者提出了首个原则性的、基于价值的 RL 算法，能够在固定的风险厌恶参数下，理论上收敛到最优的风险厌恶策略。

关键贡献

两种新的 Bellman‑type 算子 用于指数效用 Q‑函数，已证明在 (i) 标准的 sup‑norm 和 (ii) sup‑log/Thompson 度量下是收缩映射。
证明从任一算子的固定点导出的贪婪平稳策略在指数效用准则下是所有平稳策略中的最优。
一种双时间尺度的无模型 Q‑学习算法（类似经典 Q‑学习），具备：
- 几乎必然收敛的保证。
- 通过时间尺度分离分析得到的有限时间收敛速率。
一种单时间尺度算法，基于次线性幂律算子，并提供了一种新颖的收敛证明，利用局部 Lipschitz 性、单调性、齐次性以及 Dini 导数。
标量有限时间分析，阐明了将速率结果推广到完整向量值情形的困难所在。

方法论

问题设定 – 作者考虑一个折扣马尔可夫决策过程 (MDP) ((\mathcal{S},\mathcal{A},P,R,\gamma)) 和一个 风险厌恶 参数 (\eta>0)。策略 (\pi) 的表现通过 指数效用 衡量

$$ J^\pi(s)=\mathbb{E}!\left[\exp!\Big(\eta\sum_{t=0}^\infty \gamma^t R(s_t,a_t)\Big),\bigg|,s_0=s\right]. $$

最大化 (J^\pi) 等价于 最小化 风险敏感成本 (-\frac{1}{\eta}\log J^\pi)。
贝尔曼类方程 – 基于 Porteus (1975)，作者推导出指数效用 Q 函数 (Q(s,a)) 的 非线性贝尔曼方程。引入了两种算子形式：
- (T_{\infty})：在上确界范数下的收缩算子。
- (T_{\log})：在 上确界对数（Thompson）度量下的收缩算子，更好地捕捉指数效用的乘法特性。
算法设计 –
- 双时间尺度 Q 学习 在快速时间尺度上更新 Q 值，同时在较慢的时间尺度上估计归一化标量，从而在非线性情况下保持稳定性。
- 单时间尺度幂律更新 用次线性映射取代收缩算子，避免使用第二个学习率，但需要更精细的收敛论证。
收敛分析 – 对于双时间尺度方法，使用标准的随机逼近工具（ODE 方法、Robbins‑Monro）可得到几乎必然收敛以及明确的有限时间界限。对于单时间尺度方法，作者证明了算子的 局部 Lipschitz 性 和 单调性，随后利用 Dini 导数 控制误差轨迹，在缺乏全局收缩性的情况下仍然建立了收敛性。

结果与发现

两个算子都具有 唯一固定点；相应的贪婪策略在所有平稳策略中对指数效用目标是可证明的最优。
双时间尺度 Q‑learning 算法几乎必然收敛到这些固定点，其有限时间误差界的尺度为

$$ O!\bigg(\frac{\log T}{\sqrt{T}}\bigg) $$

（常数取决于 (\eta) 和 (\gamma)）。
单时间尺度幂律算法 也收敛，尽管分析仅得到标量收敛速率；将其推广到完整向量情形仍是一个未解决的技术挑战。
实证模拟（完整论文中提供）表明这些算法学习到风险规避行为——例如，避免高方差奖励区域——同时仍能实现具有竞争力的折扣回报。

实际意义

领域	为什么指数效用重要	论文的帮助
金融与交易	投资组合经理关注下行风险，而不仅是预期收益。	提供一种无模型的强化学习方法，直接优化风险厌恶效用，使得自动化、数据驱动的对冲策略成为可能。
机器人与自主系统	安全关键任务需要避免罕见的灾难性失误。	使机器人能够学习惩罚高方差结果（如滑倒、碰撞）的策略，而无需手工设计安全约束。
云与边缘资源分配	服务水平协议常涉及尾部延迟保证。	强化学习代理可以被训练以最小化延迟峰值的指数成本，从而实现更可靠的资源配置。
运营与供应链	需求不确定性可能导致昂贵的缺货或库存过剩。	这些算法可以学习对冲需求波动的订货策略，提升服务水平。

对于开发者来说，双时间尺度 Q‑learning算法只需对现有 Q‑learning 代码库做少量修改：添加一个用于跟踪归一化标量（通常称为“对数分区函数”）的次要学习率。单时间尺度变体实现更为简洁（单一学习率），但可能需要更仔细的调参和收敛性监控。

限制与未来工作

固定风险规避：理论假设风险系数 (\eta) 为常数。将方法扩展到状态相关或学习得到的风险参数仍是一个未解决的问题。
仅在特化度量下收缩：上确界对数/汤普森度量在强化学习库中并不常用，这可能会增加实际调试和超参数选择的难度。
单时间尺度算法的有限时间收敛率目前仅针对标量情况；将其推广到完整的向量值 Q‑函数仍是技术难点。
可扩展性：实验仅局限于规模适中的马尔可夫决策过程；将函数逼近（例如深度神经网络）引入并在该设置下证明收敛是未来的工作方向。
策略类别：最优性仅在平稳策略集合中得到证明；探索非平稳或层次化策略可能带来进一步的性能提升。

总体而言，这项工作为风险感知的基于价值的强化学习奠定了理论基础，为在各种高风险应用中实现实用的风险敏感智能体打开了大门。

作者

Gugan Thoppe
L. A. Prashanth
Ankur Naskar
Sanjay Bhat

论文信息

arXiv ID: 2605.08053v1
分类: cs.LG
出版时间: 2026年5月8日
PDF: 下载 PDF

[Paper] 指数效用的强化学习：折扣MDP中的算法与收敛性

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择