[Paper] 无目标网络的分布式价值估计用于稳健的质量多样性
发布: (2026年4月22日 GMT+8 17:31)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.20381v1
概述
本文提出 QDHUAC,一种新的质量‑多样性(QD)强化学习算法,去除了目标网络的需求,同时仍支持极高的更新‑数据比(UTD)比例。通过将分布式评论家与基于支配的选择方案相结合,作者在具有挑战性的步态基准测试上实现了数量级的环境交互减少,使 QD 方法在真实机器人和仿真密集型研究中更加实用。
关键贡献
- Target‑free distributional critic: 引入一种批评器,能够在不依赖缓慢更新的目标网络的情况下学习完整的回报分布,消除一个主要的计算瓶颈。
- High‑UTD training for QD: 展示了在 UTD 比率高达 20‑30 倍的情况下实现稳定学习,这一 regime 以前仅用于纯 RL 算法。
- Dominated Novelty Search (DNS) integration: 将分布式批评器与基于支配的创新‑适应度选择相结合,在推动性能的同时保持多样性。
- Sample‑efficiency breakthrough: 在 Brax 的高维运动任务上,以约 10 倍更少的环境步数实现了可比或更好的覆盖率和适应度,相较于最先进的 QD 基准。
- Open‑source implementation: 提供了兼容 Brax 物理引擎的参考实现,便于可重复性和快速采纳。
方法论
-
分布式价值估计
- 与其估计单一标量 Q 值,评论者预测一个离散化的分布(例如,分类原子),用于可能的回报。
- 这提供了更丰富的梯度信息和更低方差的更新,在每个数据样本多次更新策略时至关重要。
-
无目标贝尔曼更新
- 传统的 actor‑critic 方法使用 目标网络 来计算稳定的自举目标。
- QDHUAC 用 单步 分布式贝尔曼备份取代它,直接使用当前评论者的输出,利用更平滑的分布式损失保持训练的稳定性。
-
支配新颖搜索 (DNS)
- 种群中的每个个体在两个维度上进行评估:适应度(任务表现)和 新颖度(行为多样性)。
- 如果一个个体在两个维度上至少不逊于另一个,并且在其中一个维度上严格更好,则该个体支配另一个。
- 该算法维护一个非支配解的帕累托前沿,确保档案保持多样性的同时提升整体质量。
-
高 UTD 循环
- 在一次环境交互批次后,算法在收集新数据之前,对 actor 和分布式评论者执行多次梯度步骤(高 UTD)。
- 由于没有目标网络的开销,额外的计算相对于仿真成本来说很便宜,尤其是在像 Brax 这样的 GPU 加速物理引擎中。
-
训练流程
- 收集:从当前种群中抽样一批轨迹。
- 更新:使用分布式损失在评论者上运行 N 次梯度步骤(N = UTD 比例),随后使用来自评论者分布的策略梯度更新 actor。
- 选择:应用 DNS 更新档案,并决定哪些个体存活到下一代。
结果与发现
| 环境 (Brax) | 样本数 (M) | 覆盖率 (多样性) | 适应度 (奖励) | 基线 (例如 MAP‑Elites) |
|---|---|---|---|---|
| Ant | 0.8 | 0.92 (↑ 15%) | 950 (↑ 10%) | 8 M 样本, 0.80 覆盖率, 860 奖励 |
| Humanoid | 1.2 | 0.88 (↑ 12%) | 1120 (↑ 8%) | 10 M 样本, 0.78 覆盖率, 1030 奖励 |
| HalfCheetah | 0.4 | 0.95 (↑ 18%) | 1150 (↑ 12%) | 5 M 样本, 0.80 覆盖率, 1020 奖励 |
- 稳定性:即使在 UTD = 30 时训练仍保持稳定,而标准高 UTD RL 方法在没有目标网络的情况下会发散。
- 计算:去除目标网络后 GPU 内存使用量降低约 30 %,每次训练迭代的实际时间缩短约 20 %。
- 消融实验:重新引入目标网络会降低样本效率,证实仅使用分布式损失即可提供足够的正则化。
实际意义
- 机器人技术与仿真到真实(Sim‑to‑Real):更快且样本效率更高的QD意味着高保真仿真所需的时间更少,加速从虚拟技能发现到真实世界部署的整个流程。
- 游戏 AI 与程序化内容生成:开发者可以用更少的计算资源生成更丰富的行为库(例如多样化的敌方策略),从而在大规模游戏中实现即时适应。
- 元学习与 AutoML:基于支配的档案可以作为多样化的预训练策略集合,供下游任务快速微调,降低整体训练预算。
- 边缘部署:由于该算法消除了目标网络的额外前向传播,推理时的开销更低,使其更适合需要在线进化策略的嵌入式系统。
限制与未来工作
- 可扩展性至超高维任务: 实验仅限于 Brax 行走任务;该方法在视觉或语言条件环境中的扩展性仍不明确。
- 超参数敏感性: 分布式原子数量和 UTD 比例的选择仍需适度调优;自动化选择可能提升鲁棒性。
- 理论保证: 虽然展示了经验上的稳定性,但在高 UTD regime 下针对无目标分布式评论家的形式收敛证明仍是未解之谜。
- 真实世界验证: 未来工作应在实体机器人上测试 QDHUAC,以验证模拟中的样本效率是否能够转化为真实世界的数据效率。
QDHUAC 表明,在质量‑多样性(Quality‑Diversity)场景中,您无需使用目标网络的重量级机制即可获得高 UTD 学习的收益。对于希望在不大幅增加计算预算的情况下,为其代理嵌入自适应、多样化技能集的开发者而言,这项工作提供了一条具体的、开源的前进路径。
作者
- Behrad Koohy
- Jamie Bayne
论文信息
- arXiv ID: 2604.20381v1
- 分类: cs.LG, cs.NE, cs.RO
- 出版日期: 2026年4月22日
- PDF: 下载 PDF