[Paper] Wasserstein 演化:进化优化视为相变
发布: (2025年12月6日 GMT+8 00:12)
7 min read
原文: arXiv
Source: arXiv - 2512.05837v1
概览
Kaichen Ouyang 的论文将进化优化重新构建为来源于统计物理的 相变 现象。通过将搜索过程视为自由能泛函的 Wasserstein 梯度流,该工作提供了一种在利用(沿适应度梯度)与探索(保持熵)之间平衡的数学化方法。由此产生的算法 Wasserstein Evolution (WE) 在基准问题上表现出强收敛性,同时保持的种群多样性远高于传统进化策略。
主要贡献
- 物理形式化: 引入一个自由能泛函,其 Wasserstein 梯度流恰好描述了进化种群的动力学。
- Wasserstein Evolution (WE) 算法: 实现上述流的实用优化器,自动调节梯度下降与熵最大化之间的权衡。
- 理论桥梁: 将进化计算与热力学相连,将优化解释为从无序到有序的转变。
- 实证验证: 在多模态基准函数上展示了与 GA、DE、CMA‑ES 相比,收敛速度竞争力强且多样性显著更高。
- 熵保持机制: 证明保持高熵能够缓解早熟收敛,尤其在崎岖的多模态景观中效果突出。
方法论
- 自由能泛函设计 – 作者定义了泛函
[ \mathcal{F}(\mu) = \int V(x),d\mu(x) + \beta^{-1} \mathrm{Ent}(\mu) ]
其中 (V) 为目标(势能),(\mathrm{Ent}) 为种群分布 (\mu) 的 Shannon 熵。 - Wasserstein 梯度流 – 采用最优传输理论,(\mu) 的演化遵循连续方程
[ \partial_t \mu = \nabla \cdot \bigl(\mu \nabla \tfrac{\delta \mathcal{F}}{\delta \mu}\bigr). ]
这产生两种力:势能梯度(将样本拉向低成本区域)和 熵扩散(将其扩散开来)。 - 粒子近似 – 将连续流离散为有限个体。每次迭代通过以下组合更新粒子:
(i) 基于梯度的移动以获得更好适应度;
(ii) 符合 Wasserstein 度量的随机传输步骤,有效注入受控噪声。 - 自适应温度 ((\beta)) – 算法根据测得的种群熵实时调整 (\beta),在多样性下降时自动削弱利用,搜索过于随机时加强利用。
- 基准套件 – 使用标准多模态函数(Rastrigin、Ackley、Schwefel 等)将 WE 与成熟的进化算法进行比较。
结果与发现
| Algorithm | Best‑found value (avg.) | Convergence iterations (median) | Population entropy (final) |
|---|---|---|---|
| WE | (<10^{-6}) (optimum) | 1.2× faster than CMA‑ES | 2–3× higher than GA/DE |
| CMA‑ES | (10^{-4}) | baseline | low |
| GA | (10^{-2}) | slower | very low |
| DE | (10^{-3}) | slower | low |
- 收敛性: WE 在大多数基准上以更少的代数达到近最优解,匹配或超越 CMA‑ES。
- 多样性: 熵测量表明 WE 在整个运行过程中保持了广泛的候选分布,防止种群坍缩到单一局部谷。
- 对多模态性的鲁棒性: 在高度多模态函数(如 Schwefel)上,WE 能在收敛前发现多个有前景的谷,而经典方法往往早早陷入局部。
这些发现支持了 优化自由能泛函自然产生自适应探索‑利用平衡 的假设。
实际意义
- 无需超参数的探索: 开发者可以用 WE 中基于熵的温度调度替代手工调节的变异/交叉率,减少大量参数搜索的需求。
- 深度学习超参数调优的鲁棒全局搜索: 算法的多样性保持特性使其适用于深度模型的超参数空间,那里存在众多局部最小。
- 工程设计优化: 高维、多模态的设计问题(如气动形状优化)可受益于 WE 在决定最终解之前先探索大量设计区域的能力。
- 与现有工具链的集成: WE 可作为现有进化库(DEAP、PyGAD 等)中 “种群更新” 步骤的直接替代,实现相同的表示和评估管线。
- 算法设计的理论洞见: 通过热力学视角审视优化,实践者获得了一种原则性的方法来思考保持多样性的机制,可能激发出新变体(例如将 WE 与代理模型混合)。
局限性与未来工作
- 传输步骤的可扩展性: 粒子近似的 Wasserstein 流在计算成对距离时代价为 (O(N^2)),在极大种群下可能成本高昂。
- 平滑势能的假设: 推导依赖于可微目标函数;高度噪声或离散的适应度景观可能削弱梯度成分的有效性。
- 基准范围: 实验主要聚焦于合成函数;真实场景的案例研究(如神经架构搜索、组合优化)仍未涉及。
- 未来方向: 作者提出 (i) 使用随机小批量近似降低传输复杂度,(ii) 通过在图上定义 Wasserstein‑类度量将框架扩展到离散搜索空间,(iii) 将 WE 与学习的代理模型结合,以应对昂贵的目标函数评估。
作者
- Kaichen Ouyang
论文信息
- arXiv ID: 2512.05837v1
- 分类: cs.NE
- 发布日期: 2025 年 12 月 5 日
- PDF: Download PDF