[Paper] 学习进化并通过 Neural Unrolling 实现收敛保证
发布: (2025年12月12日 GMT+8 18:46)
7 min read
原文: arXiv
Source: arXiv - 2512.11453v1
Overview
本文提出了 Learning to Evolve (L2E),一种新的元优化框架,能够在仍然提供数学收敛保证的前提下教会进化算法如何搜索。通过将进化过程视为基于 Krasnosel’skii‑Mann 不动点理论的 神经展开 操作,作者在学习型优化器的灵活性与经典理论驱动方法的可靠性之间架起了桥梁。
Key Contributions
- 双层元优化公式:将进化搜索视为神经展开算子,实现搜索动态的端到端学习。
- 收敛的内部循环算子:基于结构化的 Mamba 风格神经网络,保证严格收敛的轨迹。
- 复合梯度导出求解器:将学习到的全局提议与局部代理梯度步骤相结合,实现探索与利用的平衡。
- 可证明的收敛性:基于 Krasnosel’skii‑Mann 不动点理论,这是数据驱动优化器少有的属性。
- 广泛的实证验证:展示了在高维合成基准和真实控制任务上的零样本泛化能力,证明了可扩展性和鲁棒性。
Methodology
- 神经展开即进化搜索 – 将进化算法的每一次迭代重新解释为深度网络的一层。网络(算子)接受种群,进行学习的变换,并输出下一个种群。
- 内部循环(收敛动力学) – 受 Mamba 启发的神经算子被约束为 收敛:相邻种群之间的距离会缩小,从而在数学上保证收敛到不动点。
- 外部循环(元学习) – 更高层的优化器调整神经算子的参数,使其不动点与目标函数的最小化点对齐。这形成了经典的双层问题:内部循环求解不动点方程,外部循环调节算子。
- 复合求解器 – 在每一步,算法混合两类信号:
- 学习到的进化提议(全局、数据驱动的移动)。
- 代理梯度步骤(基于目标可微分近似的局部细化)。
混合比例本身也是学习得到的,从而自适应地控制探索与利用的权衡。
- 收敛性证明 – 将算子根植于 Krasnosel’skii‑Mann 理论,作者证明在温和假设下,无论学习到的参数如何,展开过程都收敛到不动点,为大多数学习型优化器缺失的安全网提供了保障。
Results & Findings
- 可扩展性:L2E 成功优化了维度高达 10,000 的问题,在解的质量和实际运行时间上均优于传统进化策略(CMA‑ES、DE)以及近期的学习型优化器。
- 零样本泛化:在合成函数(如 Rastrigin、Ackley)上训练的模型能够直接迁移到未见过的控制环境(如倒立摆、机械臂),无需微调,即实现比基线更低的累计后悔。
- 探索‑利用平衡:消融实验表明自适应混合至关重要;去除梯度组件会导致过早收敛,去除学习提议则在多模态景观中停滞不前。
- 鲁棒性:在 30 个随机种子下,L2E 的性能方差显著低于纯进化基线,表明行为更可预测。
Practical Implications
- 即插即用的优化器:开发者可以将学习得到的 L2E 模块直接嵌入现有流水线(超参数调优、神经架构搜索、强化学习策略优化),获得适应性和收敛保证双重优势。
- 降低工程开销:由于 L2E 学习的是通用搜索流形,团队无需再手工设计特定问题的启发式或花费数周调参进化算法。
- 安全关键系统:可证明的收敛性使 L2E 成为在优化行为不可预测会导致严重后果的领域(如自动驾驶、金融)中的可行候选。
- 加速科研:研究者可以在适度的合成套件上训练 L2E,然后在广泛的下游任务中复用同一模型,显著缩短实验周期。
Limitations & Future Work
- 收敛性假设:强制算子严格收敛可能限制学习动力学的表达能力,进而在高度非凸或不连续的搜索空间上表现受限。
- 元训练成本:双层训练过程计算开销大;将其扩展到极大规模数据集或实时适应仍是未解挑战。
- 代理梯度质量:方法依赖目标的可微分近似;当代理质量差或不可得时,局部细化组件可能退化。
- 未来方向:作者建议探索自适应收敛约束、引入更丰富的代理模型(如学习的物理模拟器),以及将框架扩展到多目标或约束优化情形。
Authors
- Jiaxin Gao
- Yaohua Liu
- Ran Cheng
- Kay Chen Tan
Paper Information
- arXiv ID: 2512.11453v1
- Categories: cs.NE
- Published: December 12, 2025
- PDF: Download PDF