[Paper] Hybrid-AIRL:通过监督专家指导提升逆向强化学习

发布: (2025年11月26日 GMT+8 21:04)
7 min read
原文: arXiv

Source: arXiv - 2511.21356v1

概览

本文提出了 Hybrid‑AIRL (H‑AIRL),这是一种在对抗逆向强化学习 (AIRL) 基础上加入来自专家示例的监督损失的新方法。通过在极具挑战性的 Heads‑Up Limit Hold’em (HULHE) 扑克环境以及多个 Gymnasium 基准上进行测试,作者展示了少量监督引导能够显著提升奖励推断、样本效率和学习稳定性。

主要贡献

  • Hybrid‑AIRL 框架:在 AIRL 中加入监督的专家动作损失和随机正则化项,以稳定奖励学习。
  • 在 HULHE 上的实证评估:首次系统性研究 AIRL(及其混合变体)在高复杂度、信息不完全且奖励稀疏、延迟的游戏中的表现。
  • 基准套件:在一组精选的 Gymnasium 任务(如 CartPole、LunarLander、MuJoCo 风格的连续控制)上进行实验,以展示方法的通用性。
  • 奖励函数诊断:可视化分析工具,展示学习到的稠密奖励如何与游戏状态和专家行为相关联。
  • 样本效率提升:量化证据表明 H‑AIRL 能以比原始 AIRL 少 30‑50 % 的环境交互次数达到相当的性能。

方法论

  1. 基线 AIRL 回顾 – AIRL 将逆向强化学习视为一个两人博弈:判别器尝试区分专家的状态‑动作对与当前策略生成的对,而策略(生成器)则学习欺骗判别器,隐式地塑造奖励函数。
  2. 混合增强
    • 监督损失:交叉熵项,直接惩罚策略在演示集上偏离专家动作的行为,为训练早期提供稠密、低方差的学习信号。
    • 随机正则化:在更新过程中随机遮蔽判别器输入的部分(状态或动作),防止在有限的专家数据上过拟合到偶然模式。
  3. 训练循环 – 与标准 AIRL 类似,策略和判别器交替更新,但在策略梯度中加入监督损失。超参数控制对抗损失与监督损失的权重平衡。
  4. 评估流程 – 作者在每个环境上使用多个随机种子,跟踪累计奖励、策略熵以及学习到的奖励与真实奖励(若可得)的相关性。同时在 HULHE 中可视化奖励在游戏状态上的热图。

结果与发现

环境AIRL(样本)H‑AIRL(样本)最终得分 (↑)稳定性 (方差)
CartPole10 k6 k200(最高)↓ 0.12
LunarLander150 k85 k260 对 240↓ 0.35
MuJoCo‑HalfCheetah500 k280 k12 300 对 10 900↓ 0.22
HULHE(扑克)1.2 M0.7 M胜率 0.78 对 0.62↓ 0.18
  • 样本效率:H‑AIRL 始终以 30‑50 % 更少的环境步数达到目标性能。
  • 学习稳定性:不同随机种子间的方差显著下降,说明监督项缓解了对抗 IRL 常见的高方差问题。
  • 奖励可解释性:可视化结果显示,H‑AIRL 学到的奖励在手牌强度状态上赋予更高值,且与专家的下注模式一致;而原始 AIRL 的奖励显得噪声较大,且与领域知识的相关性较低。

实际意义

  • 更快的奖励模型原型化 – 开发者现在可以仅凭少量专家日志提取稠密奖励函数,无需数百万次交互,这对机器人、游戏 AI 和自主系统等数据采集成本高的领域尤为重要。
  • 更安全的策略学习 – 通过将策略锚定在专家动作上,H‑AIRL 减少了在安全关键领域(如自动驾驶仿真)中出现灾难性探索的风险。
  • 混合训练流水线 – 该方法可以自然地嵌入现有的 RL 库(如 Stable‑Baselines3、RLlib),只需在 AIRL 训练器中额外加入监督损失项,即可作为即插即用的替代方案。
  • 领域无关的适用性 – 基准套件表明该方法在离散和连续控制任务上均有效,暗示只要拥有少量高质量示例数据,就可以在任何环境中采用。

局限性与未来工作

  • 对示例质量的依赖 – 监督组件假设专家数据近乎最优;噪声或次优示例可能导致奖励偏差。
  • 对大规模状态空间的可扩展性 – 虽然随机正则化有所帮助,但判别器仍需处理完整的状态表示,在高维感知任务(如原始视频)中可能成为瓶颈。
  • 理论保证缺失 – 本文提供了实证证据,却缺乏对混合对抗与监督损失时收敛性质的形式化分析。
  • 作者提出的未来方向 包括:
    1. 自动平衡两种损失的自适应加权方案。
    2. 随着策略改进逐步淡出监督损失的课程策略。
    3. 将 H‑AIRL 推广至两人扑克之外的多智能体环境。

作者

  • Bram Silue
  • Santiago Amaya-Corredor
  • Patrick Mannion
  • Lander Willem
  • Pieter Libin

论文信息

  • arXiv ID: 2511.21356v1
  • 分类: cs.LG, cs.AI
  • 发表时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »