[Paper] Hybrid-AIRL:通过监督专家指导提升逆向强化学习
发布: (2025年11月26日 GMT+8 21:04)
7 min read
原文: arXiv
Source: arXiv - 2511.21356v1
概览
本文提出了 Hybrid‑AIRL (H‑AIRL),这是一种在对抗逆向强化学习 (AIRL) 基础上加入来自专家示例的监督损失的新方法。通过在极具挑战性的 Heads‑Up Limit Hold’em (HULHE) 扑克环境以及多个 Gymnasium 基准上进行测试,作者展示了少量监督引导能够显著提升奖励推断、样本效率和学习稳定性。
主要贡献
- Hybrid‑AIRL 框架:在 AIRL 中加入监督的专家动作损失和随机正则化项,以稳定奖励学习。
- 在 HULHE 上的实证评估:首次系统性研究 AIRL(及其混合变体)在高复杂度、信息不完全且奖励稀疏、延迟的游戏中的表现。
- 基准套件:在一组精选的 Gymnasium 任务(如 CartPole、LunarLander、MuJoCo 风格的连续控制)上进行实验,以展示方法的通用性。
- 奖励函数诊断:可视化分析工具,展示学习到的稠密奖励如何与游戏状态和专家行为相关联。
- 样本效率提升:量化证据表明 H‑AIRL 能以比原始 AIRL 少 30‑50 % 的环境交互次数达到相当的性能。
方法论
- 基线 AIRL 回顾 – AIRL 将逆向强化学习视为一个两人博弈:判别器尝试区分专家的状态‑动作对与当前策略生成的对,而策略(生成器)则学习欺骗判别器,隐式地塑造奖励函数。
- 混合增强
- 监督损失:交叉熵项,直接惩罚策略在演示集上偏离专家动作的行为,为训练早期提供稠密、低方差的学习信号。
- 随机正则化:在更新过程中随机遮蔽判别器输入的部分(状态或动作),防止在有限的专家数据上过拟合到偶然模式。
- 训练循环 – 与标准 AIRL 类似,策略和判别器交替更新,但在策略梯度中加入监督损失。超参数控制对抗损失与监督损失的权重平衡。
- 评估流程 – 作者在每个环境上使用多个随机种子,跟踪累计奖励、策略熵以及学习到的奖励与真实奖励(若可得)的相关性。同时在 HULHE 中可视化奖励在游戏状态上的热图。
结果与发现
| 环境 | AIRL(样本) | H‑AIRL(样本) | 最终得分 (↑) | 稳定性 (方差) |
|---|---|---|---|---|
| CartPole | 10 k | 6 k | 200(最高) | ↓ 0.12 |
| LunarLander | 150 k | 85 k | 260 对 240 | ↓ 0.35 |
| MuJoCo‑HalfCheetah | 500 k | 280 k | 12 300 对 10 900 | ↓ 0.22 |
| HULHE(扑克) | 1.2 M | 0.7 M | 胜率 0.78 对 0.62 | ↓ 0.18 |
- 样本效率:H‑AIRL 始终以 30‑50 % 更少的环境步数达到目标性能。
- 学习稳定性:不同随机种子间的方差显著下降,说明监督项缓解了对抗 IRL 常见的高方差问题。
- 奖励可解释性:可视化结果显示,H‑AIRL 学到的奖励在手牌强度状态上赋予更高值,且与专家的下注模式一致;而原始 AIRL 的奖励显得噪声较大,且与领域知识的相关性较低。
实际意义
- 更快的奖励模型原型化 – 开发者现在可以仅凭少量专家日志提取稠密奖励函数,无需数百万次交互,这对机器人、游戏 AI 和自主系统等数据采集成本高的领域尤为重要。
- 更安全的策略学习 – 通过将策略锚定在专家动作上,H‑AIRL 减少了在安全关键领域(如自动驾驶仿真)中出现灾难性探索的风险。
- 混合训练流水线 – 该方法可以自然地嵌入现有的 RL 库(如 Stable‑Baselines3、RLlib),只需在 AIRL 训练器中额外加入监督损失项,即可作为即插即用的替代方案。
- 领域无关的适用性 – 基准套件表明该方法在离散和连续控制任务上均有效,暗示只要拥有少量高质量示例数据,就可以在任何环境中采用。
局限性与未来工作
- 对示例质量的依赖 – 监督组件假设专家数据近乎最优;噪声或次优示例可能导致奖励偏差。
- 对大规模状态空间的可扩展性 – 虽然随机正则化有所帮助,但判别器仍需处理完整的状态表示,在高维感知任务(如原始视频)中可能成为瓶颈。
- 理论保证缺失 – 本文提供了实证证据,却缺乏对混合对抗与监督损失时收敛性质的形式化分析。
- 作者提出的未来方向 包括:
- 自动平衡两种损失的自适应加权方案。
- 随着策略改进逐步淡出监督损失的课程策略。
- 将 H‑AIRL 推广至两人扑克之外的多智能体环境。
作者
- Bram Silue
- Santiago Amaya-Corredor
- Patrick Mannion
- Lander Willem
- Pieter Libin
论文信息
- arXiv ID: 2511.21356v1
- 分类: cs.LG, cs.AI
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF