[Paper] 无目标网络的分布式价值估计用于稳健的质量多样性

发布: 3天前 (2026年4月22日 GMT+8 17:31)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.20381v1

概述

本文提出 QDHUAC，一种新的质量‑多样性（QD）强化学习算法，去除了目标网络的需求，同时仍支持极高的更新‑数据比（UTD）比例。通过将分布式评论家与基于支配的选择方案相结合，作者在具有挑战性的步态基准测试上实现了数量级的环境交互减少，使 QD 方法在真实机器人和仿真密集型研究中更加实用。

关键贡献

Target‑free distributional critic: 引入一种批评器，能够在不依赖缓慢更新的目标网络的情况下学习完整的回报分布，消除一个主要的计算瓶颈。
High‑UTD training for QD: 展示了在 UTD 比率高达 20‑30 倍的情况下实现稳定学习，这一 regime 以前仅用于纯 RL 算法。
Dominated Novelty Search (DNS) integration: 将分布式批评器与基于支配的创新‑适应度选择相结合，在推动性能的同时保持多样性。
Sample‑efficiency breakthrough: 在 Brax 的高维运动任务上，以约 10 倍更少的环境步数实现了可比或更好的覆盖率和适应度，相较于最先进的 QD 基准。
Open‑source implementation: 提供了兼容 Brax 物理引擎的参考实现，便于可重复性和快速采纳。

方法论

分布式价值估计
- 与其估计单一标量 Q 值，评论者预测一个离散化的分布（例如，分类原子），用于可能的回报。
- 这提供了更丰富的梯度信息和更低方差的更新，在每个数据样本多次更新策略时至关重要。
无目标贝尔曼更新
- 传统的 actor‑critic 方法使用 目标网络 来计算稳定的自举目标。
- QDHUAC 用单步分布式贝尔曼备份取代它，直接使用当前评论者的输出，利用更平滑的分布式损失保持训练的稳定性。
支配新颖搜索 (DNS)
- 种群中的每个个体在两个维度上进行评估：适应度（任务表现）和 新颖度（行为多样性）。
- 如果一个个体在两个维度上至少不逊于另一个，并且在其中一个维度上严格更好，则该个体支配另一个。
- 该算法维护一个非支配解的帕累托前沿，确保档案保持多样性的同时提升整体质量。
高 UTD 循环
- 在一次环境交互批次后，算法在收集新数据之前，对 actor 和分布式评论者执行多次梯度步骤（高 UTD）。
- 由于没有目标网络的开销，额外的计算相对于仿真成本来说很便宜，尤其是在像 Brax 这样的 GPU 加速物理引擎中。
训练流程
- 收集：从当前种群中抽样一批轨迹。
- 更新：使用分布式损失在评论者上运行 N 次梯度步骤（N = UTD 比例），随后使用来自评论者分布的策略梯度更新 actor。
- 选择：应用 DNS 更新档案，并决定哪些个体存活到下一代。

结果与发现

环境 (Brax)	样本数 (M)	覆盖率 (多样性)	适应度 (奖励)	基线 (例如 MAP‑Elites)
Ant	0.8	0.92 (↑ 15%)	950 (↑ 10%)	8 M 样本, 0.80 覆盖率, 860 奖励
Humanoid	1.2	0.88 (↑ 12%)	1120 (↑ 8%)	10 M 样本, 0.78 覆盖率, 1030 奖励
HalfCheetah	0.4	0.95 (↑ 18%)	1150 (↑ 12%)	5 M 样本, 0.80 覆盖率, 1020 奖励

稳定性：即使在 UTD = 30 时训练仍保持稳定，而标准高 UTD RL 方法在没有目标网络的情况下会发散。
计算：去除目标网络后 GPU 内存使用量降低约 30 %，每次训练迭代的实际时间缩短约 20 %。
消融实验：重新引入目标网络会降低样本效率，证实仅使用分布式损失即可提供足够的正则化。

实际意义

机器人技术与仿真到真实（Sim‑to‑Real）：更快且样本效率更高的QD意味着高保真仿真所需的时间更少，加速从虚拟技能发现到真实世界部署的整个流程。
游戏 AI 与程序化内容生成：开发者可以用更少的计算资源生成更丰富的行为库（例如多样化的敌方策略），从而在大规模游戏中实现即时适应。
元学习与 AutoML：基于支配的档案可以作为多样化的预训练策略集合，供下游任务快速微调，降低整体训练预算。
边缘部署：由于该算法消除了目标网络的额外前向传播，推理时的开销更低，使其更适合需要在线进化策略的嵌入式系统。

限制与未来工作

可扩展性至超高维任务: 实验仅限于 Brax 行走任务；该方法在视觉或语言条件环境中的扩展性仍不明确。
超参数敏感性: 分布式原子数量和 UTD 比例的选择仍需适度调优；自动化选择可能提升鲁棒性。
理论保证: 虽然展示了经验上的稳定性，但在高 UTD regime 下针对无目标分布式评论家的形式收敛证明仍是未解之谜。
真实世界验证: 未来工作应在实体机器人上测试 QDHUAC，以验证模拟中的样本效率是否能够转化为真实世界的数据效率。

QDHUAC 表明，在质量‑多样性（Quality‑Diversity）场景中，您无需使用目标网络的重量级机制即可获得高 UTD 学习的收益。对于希望在不大幅增加计算预算的情况下，为其代理嵌入自适应、多样化技能集的开发者而言，这项工作提供了一条具体的、开源的前进路径。

作者

Behrad Koohy
Jamie Bayne

论文信息

arXiv ID: 2604.20381v1
分类: cs.LG, cs.NE, cs.RO
出版日期: 2026年4月22日
PDF: 下载 PDF

[Paper] 无目标网络的分布式价值估计用于稳健的质量多样性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] Streaming Continual Learning 中的 Temporal Taskification：Evaluation Instability 的来源

[Paper] 微调方案定义了不同的持续学习问题

[Paper] 多校准的样本复杂度