[Paper] Hybrid-AIRL：通过监督专家指导提升逆向强化学习

发布: 2个月前 (2025年11月26日 GMT+8 21:04)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21356v1

概览

本文提出了 Hybrid‑AIRL (H‑AIRL)，这是一种在对抗逆向强化学习 (AIRL) 基础上加入来自专家示例的监督损失的新方法。通过在极具挑战性的 Heads‑Up Limit Hold’em (HULHE) 扑克环境以及多个 Gymnasium 基准上进行测试，作者展示了少量监督引导能够显著提升奖励推断、样本效率和学习稳定性。

主要贡献

Hybrid‑AIRL 框架：在 AIRL 中加入监督的专家动作损失和随机正则化项，以稳定奖励学习。
在 HULHE 上的实证评估：首次系统性研究 AIRL（及其混合变体）在高复杂度、信息不完全且奖励稀疏、延迟的游戏中的表现。
基准套件：在一组精选的 Gymnasium 任务（如 CartPole、LunarLander、MuJoCo 风格的连续控制）上进行实验，以展示方法的通用性。
奖励函数诊断：可视化分析工具，展示学习到的稠密奖励如何与游戏状态和专家行为相关联。
样本效率提升：量化证据表明 H‑AIRL 能以比原始 AIRL 少 30‑50 % 的环境交互次数达到相当的性能。

方法论

基线 AIRL 回顾 – AIRL 将逆向强化学习视为一个两人博弈：判别器尝试区分专家的状态‑动作对与当前策略生成的对，而策略（生成器）则学习欺骗判别器，隐式地塑造奖励函数。
混合增强
- 监督损失：交叉熵项，直接惩罚策略在演示集上偏离专家动作的行为，为训练早期提供稠密、低方差的学习信号。
- 随机正则化：在更新过程中随机遮蔽判别器输入的部分（状态或动作），防止在有限的专家数据上过拟合到偶然模式。
训练循环 – 与标准 AIRL 类似，策略和判别器交替更新，但在策略梯度中加入监督损失。超参数控制对抗损失与监督损失的权重平衡。
评估流程 – 作者在每个环境上使用多个随机种子，跟踪累计奖励、策略熵以及学习到的奖励与真实奖励（若可得）的相关性。同时在 HULHE 中可视化奖励在游戏状态上的热图。

结果与发现

环境	AIRL（样本）	H‑AIRL（样本）	最终得分 (↑)	稳定性 (方差)
CartPole	10 k	6 k	200（最高）	↓ 0.12
LunarLander	150 k	85 k	260 对 240	↓ 0.35
MuJoCo‑HalfCheetah	500 k	280 k	12 300 对 10 900	↓ 0.22
HULHE（扑克）	1.2 M	0.7 M	胜率 0.78 对 0.62	↓ 0.18

样本效率：H‑AIRL 始终以 30‑50 % 更少的环境步数达到目标性能。
学习稳定性：不同随机种子间的方差显著下降，说明监督项缓解了对抗 IRL 常见的高方差问题。
奖励可解释性：可视化结果显示，H‑AIRL 学到的奖励在手牌强度状态上赋予更高值，且与专家的下注模式一致；而原始 AIRL 的奖励显得噪声较大，且与领域知识的相关性较低。

实际意义

更快的奖励模型原型化 – 开发者现在可以仅凭少量专家日志提取稠密奖励函数，无需数百万次交互，这对机器人、游戏 AI 和自主系统等数据采集成本高的领域尤为重要。
更安全的策略学习 – 通过将策略锚定在专家动作上，H‑AIRL 减少了在安全关键领域（如自动驾驶仿真）中出现灾难性探索的风险。
混合训练流水线 – 该方法可以自然地嵌入现有的 RL 库（如 Stable‑Baselines3、RLlib），只需在 AIRL 训练器中额外加入监督损失项，即可作为即插即用的替代方案。
领域无关的适用性 – 基准套件表明该方法在离散和连续控制任务上均有效，暗示只要拥有少量高质量示例数据，就可以在任何环境中采用。

局限性与未来工作

对示例质量的依赖 – 监督组件假设专家数据近乎最优；噪声或次优示例可能导致奖励偏差。
对大规模状态空间的可扩展性 – 虽然随机正则化有所帮助，但判别器仍需处理完整的状态表示，在高维感知任务（如原始视频）中可能成为瓶颈。
理论保证缺失 – 本文提供了实证证据，却缺乏对混合对抗与监督损失时收敛性质的形式化分析。
作者提出的未来方向 包括：
1. 自动平衡两种损失的自适应加权方案。
2. 随着策略改进逐步淡出监督损失的课程策略。
3. 将 H‑AIRL 推广至两人扑克之外的多智能体环境。

作者

Bram Silue
Santiago Amaya-Corredor
Patrick Mannion
Lander Willem
Pieter Libin

论文信息

arXiv ID: 2511.21356v1
分类: cs.LG, cs.AI
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] Hybrid-AIRL：通过监督专家指导提升逆向强化学习

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索