[Paper] 软质量-多样性优化

发布: (2025年11月30日 GMT+8 17:38)
6 min read
原文: arXiv

Source: arXiv - 2512.00810v1

概览

本文提出了 软质量‑多样性(Soft QD),这是一种全新的质量‑多样性(QD)优化思路,摆脱了对行为空间离散化的需求。通过将多样性定义为 (连续)的目标,作者推导出一种可微分的算法——SQUAD(Soft QD Using Approximated Diversity),该算法能够扩展到高维问题,同时在经典 QD 基准上仍保持竞争力的表现。

关键贡献

  • 软 QD 公式化: 将 QD 目标重新定义为连续、可微分的函数,去除了对硬编码箱体或区域的依赖。
  • 理论保证: 证明了软 QD 目标的单调性,并展示其极限情况收敛到传统的 QD Score 指标。
  • SQUAD 算法: 一种新颖的基于梯度的 QD 方法,通过平滑核近似多样性,实现端到端的可微分优化。
  • 实证验证: 证明 SQUAD 在标准基准(如 MAP‑Elites、NSLC)上能够匹配或超越最先进的 QD 算法,并且在更高维的行为空间中表现更为优雅。
  • 可扩展性分析: 提供实验结果,突出在行为维度增多时内存占用降低且性能更佳。

方法论

  1. 软 QD 目标:

    • 作者不再将行为空间划分为离散单元,而是定义一种 覆盖项,利用核密度估计器衡量解集合在空间中的分布程度。
    • 目标由两部分组成:(i) 质量(常规适应度)和 (ii) 软多样性(基于核的覆盖度)。
  2. 可微分近似:

    • 多样性项使用可微分核(如高斯核)进行近似,可进行反向传播。
    • 这使得可以使用基于梯度的优化器(SGD、Adam),而不必依赖于变异/交叉的进化算子。
  3. SQUAD 算法:

    • 种群初始化: 随机采样一组候选解。
    • 前向传播: 计算每个候选解的质量分数和软多样性贡献。
    • 梯度步骤: 使用组合后的 Soft QD 损失更新参数化策略(如神经网络)的参数。
    • 回放缓冲区: 保留一个小型精英解档案,以稳定训练并确保高质量个体被保留。
  4. 基准测试:

    • 在经典 QD 测试平台(如机械臂到达、步态任务)上进行实验,行为空间维度从 2‑D 到 10‑D 不等。
    • 对照基线包括 MAP‑Elites、基于 CMA‑ES 的 QD 以及近期的神经 QD 方法。

结果与发现

基准指标(QD‑Score)SQUAD vs. MAP‑Elites内存使用
2‑D 迷宫0.92(SQUAD) vs 0.88(MAP)+4.5 %约降低 30 %
5‑D 机械臂0.81(SQUAD) vs 0.77(CMA‑ES‑QD)+5.2 %约降低 45 %
10‑D 步态0.68(SQUAD) vs 0.60(NSLC)+13 %约降低 60 %
  • 单调改进: Soft QD 分数在迭代过程中从未下降,验证了理论上的单调性声明。
  • 可扩展性: 随着行为维度的增长,SQUAD 的性能衰减远小于基于离散化的方法,后者受到维度灾难的严重影响。
  • 速度优势: 梯度更新的计算成本低于每代评估大量后代的开销,使得在大规模问题上收敛更快。

实际意义

  • 内存高效的档案: 开发者现在可以维护一个紧凑、可微分的多样性表示,这对嵌入式或对云成本敏感的应用尤为关键。
  • 端到端学习流水线: 由于 SQUAD 基于梯度,可直接嵌入现有的深度强化学习或可微分编程框架,实现策略参数与多样性目标的联合优化。
  • 高维设计空间: 机器人、汽车设计、神经架构搜索等行业常需大量高性能且多样的解,软 QD 为在无需手工离散化的情况下探索这些空间提供了可行方案。
  • 快速原型: 该算法依赖标准优化器(Adam、RMSProp),团队可以使用熟悉的工具(PyTorch、TensorFlow)进行 QD 概念实验,并受益于 GPU 加速。

局限性与未来工作

  • 核超参数: 核带宽决定了多样性与质量之间的权衡,自动调节仍是未解问题。
  • 非梯度友好领域: 对于目标不可微(如离散组合优化)的任务,仍需使用代理模型或混合方法。
  • 理论界限: 虽然已证明单调性,但尚未给出更紧的收敛速率等保证。
  • 更广基准: 未来可在大规模真实任务(如自动电路设计、程序内容生成)上评估软 QD,以进一步验证其可扩展性。

作者

  • Saeed Hedayatian
  • Stefanos Nikolaidis

论文信息

  • arXiv ID: 2512.00810v1
  • 分类: cs.LG, cs.NE
  • 发布日期: 2025 年 11 月 30 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »