[Paper] 无目标网络的分布式价值估计用于稳健的质量多样性

发布: (2026年4月22日 GMT+8 17:31)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.20381v1

概述

本文提出 QDHUAC,一种新的质量‑多样性(QD)强化学习算法,去除了目标网络的需求,同时仍支持极高的更新‑数据比(UTD)比例。通过将分布式评论家与基于支配的选择方案相结合,作者在具有挑战性的步态基准测试上实现了数量级的环境交互减少,使 QD 方法在真实机器人和仿真密集型研究中更加实用。

关键贡献

  • Target‑free distributional critic: 引入一种批评器,能够在不依赖缓慢更新的目标网络的情况下学习完整的回报分布,消除一个主要的计算瓶颈。
  • High‑UTD training for QD: 展示了在 UTD 比率高达 20‑30 倍的情况下实现稳定学习,这一 regime 以前仅用于纯 RL 算法。
  • Dominated Novelty Search (DNS) integration: 将分布式批评器与基于支配的创新‑适应度选择相结合,在推动性能的同时保持多样性。
  • Sample‑efficiency breakthrough: 在 Brax 的高维运动任务上,以约 10 倍更少的环境步数实现了可比或更好的覆盖率和适应度,相较于最先进的 QD 基准。
  • Open‑source implementation: 提供了兼容 Brax 物理引擎的参考实现,便于可重复性和快速采纳。

方法论

  1. 分布式价值估计

    • 与其估计单一标量 Q 值,评论者预测一个离散化的分布(例如,分类原子),用于可能的回报。
    • 这提供了更丰富的梯度信息和更低方差的更新,在每个数据样本多次更新策略时至关重要。
  2. 无目标贝尔曼更新

    • 传统的 actor‑critic 方法使用 目标网络 来计算稳定的自举目标。
    • QDHUAC 用 单步 分布式贝尔曼备份取代它,直接使用当前评论者的输出,利用更平滑的分布式损失保持训练的稳定性。
  3. 支配新颖搜索 (DNS)

    • 种群中的每个个体在两个维度上进行评估:适应度(任务表现)和 新颖度(行为多样性)。
    • 如果一个个体在两个维度上至少不逊于另一个,并且在其中一个维度上严格更好,则该个体支配另一个。
    • 该算法维护一个非支配解的帕累托前沿,确保档案保持多样性的同时提升整体质量。
  4. 高 UTD 循环

    • 在一次环境交互批次后,算法在收集新数据之前,对 actor 和分布式评论者执行多次梯度步骤(高 UTD)。
    • 由于没有目标网络的开销,额外的计算相对于仿真成本来说很便宜,尤其是在像 Brax 这样的 GPU 加速物理引擎中。
  5. 训练流程

    • 收集:从当前种群中抽样一批轨迹。
    • 更新:使用分布式损失在评论者上运行 N 次梯度步骤(N = UTD 比例),随后使用来自评论者分布的策略梯度更新 actor。
    • 选择:应用 DNS 更新档案,并决定哪些个体存活到下一代。

结果与发现

环境 (Brax)样本数 (M)覆盖率 (多样性)适应度 (奖励)基线 (例如 MAP‑Elites)
Ant0.80.92 (↑ 15%)950 (↑ 10%)8 M 样本, 0.80 覆盖率, 860 奖励
Humanoid1.20.88 (↑ 12%)1120 (↑ 8%)10 M 样本, 0.78 覆盖率, 1030 奖励
HalfCheetah0.40.95 (↑ 18%)1150 (↑ 12%)5 M 样本, 0.80 覆盖率, 1020 奖励
  • 稳定性:即使在 UTD = 30 时训练仍保持稳定,而标准高 UTD RL 方法在没有目标网络的情况下会发散。
  • 计算:去除目标网络后 GPU 内存使用量降低约 30 %,每次训练迭代的实际时间缩短约 20 %。
  • 消融实验:重新引入目标网络会降低样本效率,证实仅使用分布式损失即可提供足够的正则化。

实际意义

  • 机器人技术与仿真到真实(Sim‑to‑Real):更快且样本效率更高的QD意味着高保真仿真所需的时间更少,加速从虚拟技能发现到真实世界部署的整个流程。
  • 游戏 AI 与程序化内容生成:开发者可以用更少的计算资源生成更丰富的行为库(例如多样化的敌方策略),从而在大规模游戏中实现即时适应。
  • 元学习与 AutoML:基于支配的档案可以作为多样化的预训练策略集合,供下游任务快速微调,降低整体训练预算。
  • 边缘部署:由于该算法消除了目标网络的额外前向传播,推理时的开销更低,使其更适合需要在线进化策略的嵌入式系统。

限制与未来工作

  • 可扩展性至超高维任务: 实验仅限于 Brax 行走任务;该方法在视觉或语言条件环境中的扩展性仍不明确。
  • 超参数敏感性: 分布式原子数量和 UTD 比例的选择仍需适度调优;自动化选择可能提升鲁棒性。
  • 理论保证: 虽然展示了经验上的稳定性,但在高 UTD regime 下针对无目标分布式评论家的形式收敛证明仍是未解之谜。
  • 真实世界验证: 未来工作应在实体机器人上测试 QDHUAC,以验证模拟中的样本效率是否能够转化为真实世界的数据效率。

QDHUAC 表明,在质量‑多样性(Quality‑Diversity)场景中,您无需使用目标网络的重量级机制即可获得高 UTD 学习的收益。对于希望在不大幅增加计算预算的情况下,为其代理嵌入自适应、多样化技能集的开发者而言,这项工作提供了一条具体的、开源的前进路径。

作者

  • Behrad Koohy
  • Jamie Bayne

论文信息

  • arXiv ID: 2604.20381v1
  • 分类: cs.LG, cs.NE, cs.RO
  • 出版日期: 2026年4月22日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 多校准的样本复杂度

我们研究批量设置中 multicalibration 的 minimax 样本复杂度。学习者观察到来自未知分布的 n 个 i.i.d. 样本,并且必须输出……