[Paper] Wasserstein 演化:进化优化视为相变

发布: (2025年12月6日 GMT+8 00:12)
7 min read
原文: arXiv

Source: arXiv - 2512.05837v1

概览

Kaichen Ouyang 的论文将进化优化重新构建为来源于统计物理的 相变 现象。通过将搜索过程视为自由能泛函的 Wasserstein 梯度流,该工作提供了一种在利用(沿适应度梯度)与探索(保持熵)之间平衡的数学化方法。由此产生的算法 Wasserstein Evolution (WE) 在基准问题上表现出强收敛性,同时保持的种群多样性远高于传统进化策略。

主要贡献

  • 物理形式化: 引入一个自由能泛函,其 Wasserstein 梯度流恰好描述了进化种群的动力学。
  • Wasserstein Evolution (WE) 算法: 实现上述流的实用优化器,自动调节梯度下降与熵最大化之间的权衡。
  • 理论桥梁: 将进化计算与热力学相连,将优化解释为从无序到有序的转变。
  • 实证验证: 在多模态基准函数上展示了与 GA、DE、CMA‑ES 相比,收敛速度竞争力强且多样性显著更高。
  • 熵保持机制: 证明保持高熵能够缓解早熟收敛,尤其在崎岖的多模态景观中效果突出。

方法论

  1. 自由能泛函设计 – 作者定义了泛函
    [ \mathcal{F}(\mu) = \int V(x),d\mu(x) + \beta^{-1} \mathrm{Ent}(\mu) ]
    其中 (V) 为目标(势能),(\mathrm{Ent}) 为种群分布 (\mu) 的 Shannon 熵。
  2. Wasserstein 梯度流 – 采用最优传输理论,(\mu) 的演化遵循连续方程
    [ \partial_t \mu = \nabla \cdot \bigl(\mu \nabla \tfrac{\delta \mathcal{F}}{\delta \mu}\bigr). ]
    这产生两种力:势能梯度(将样本拉向低成本区域)和 熵扩散(将其扩散开来)。
  3. 粒子近似 – 将连续流离散为有限个体。每次迭代通过以下组合更新粒子:
    (i) 基于梯度的移动以获得更好适应度;
    (ii) 符合 Wasserstein 度量的随机传输步骤,有效注入受控噪声。
  4. 自适应温度 ((\beta)) – 算法根据测得的种群熵实时调整 (\beta),在多样性下降时自动削弱利用,搜索过于随机时加强利用。
  5. 基准套件 – 使用标准多模态函数(Rastrigin、Ackley、Schwefel 等)将 WE 与成熟的进化算法进行比较。

结果与发现

AlgorithmBest‑found value (avg.)Convergence iterations (median)Population entropy (final)
WE(<10^{-6}) (optimum)1.2× faster than CMA‑ES2–3× higher than GA/DE
CMA‑ES(10^{-4})baselinelow
GA(10^{-2})slowervery low
DE(10^{-3})slowerlow
  • 收敛性: WE 在大多数基准上以更少的代数达到近最优解,匹配或超越 CMA‑ES。
  • 多样性: 熵测量表明 WE 在整个运行过程中保持了广泛的候选分布,防止种群坍缩到单一局部谷。
  • 对多模态性的鲁棒性: 在高度多模态函数(如 Schwefel)上,WE 能在收敛前发现多个有前景的谷,而经典方法往往早早陷入局部。

这些发现支持了 优化自由能泛函自然产生自适应探索‑利用平衡 的假设。

实际意义

  • 无需超参数的探索: 开发者可以用 WE 中基于熵的温度调度替代手工调节的变异/交叉率,减少大量参数搜索的需求。
  • 深度学习超参数调优的鲁棒全局搜索: 算法的多样性保持特性使其适用于深度模型的超参数空间,那里存在众多局部最小。
  • 工程设计优化: 高维、多模态的设计问题(如气动形状优化)可受益于 WE 在决定最终解之前先探索大量设计区域的能力。
  • 与现有工具链的集成: WE 可作为现有进化库(DEAP、PyGAD 等)中 “种群更新” 步骤的直接替代,实现相同的表示和评估管线。
  • 算法设计的理论洞见: 通过热力学视角审视优化,实践者获得了一种原则性的方法来思考保持多样性的机制,可能激发出新变体(例如将 WE 与代理模型混合)。

局限性与未来工作

  • 传输步骤的可扩展性: 粒子近似的 Wasserstein 流在计算成对距离时代价为 (O(N^2)),在极大种群下可能成本高昂。
  • 平滑势能的假设: 推导依赖于可微目标函数;高度噪声或离散的适应度景观可能削弱梯度成分的有效性。
  • 基准范围: 实验主要聚焦于合成函数;真实场景的案例研究(如神经架构搜索、组合优化)仍未涉及。
  • 未来方向: 作者提出 (i) 使用随机小批量近似降低传输复杂度,(ii) 通过在图上定义 Wasserstein‑类度量将框架扩展到离散搜索空间,(iii) 将 WE 与学习的代理模型结合,以应对昂贵的目标函数评估。

作者

  • Kaichen Ouyang

论文信息

  • arXiv ID: 2512.05837v1
  • 分类: cs.NE
  • 发布日期: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »