[Paper] ImprovEvolve:让 AlphaEvolve 改进输入解并即兴创作

发布: (2026年2月11日 GMT+8 03:23)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10233v1

Overview

本文介绍了 ImprovEvolve,这是对 AlphaEvolve 框架的轻量级扩展,使大型语言模型(LLM)能够充当“智能”优化器。作者并不是进化完整的生成解的程序,而是进化一个 三方法接口——init()improve()perturb()——用于启动解、改进解以及探索邻近候选。此转变显著降低了 LLM 的推理负担,并在经典的几何装箱和不等式优化基准上取得了新的最先进成果。

关键贡献

  • 程序级抽象:将进化目标从完整的解决方案脚本重新定义为具有固定 API 的可重用“改进引擎”。
  • LLM 友好设计:通过限制 LLM 的认知负荷(仅三个明确定义的方法),进化过程变得更稳定且数据效率更高。
  • 实证突破
    • 为六边形嵌套六边形实例(11、12、15、16 个六边形)提供了新的最佳已知包装,并在对 14、17、23 个六边形进行轻微人工微调后进一步提升。
    • 为第二自相关不等式提升了下界(0.96258 对比 AlphaEvolve 的 0.96102)。
  • 简易集成:ImprovEvolve 可以以最少的代码更改直接嵌入任何 AlphaEvolve 风格的流水线。

方法论

  1. 接口定义 – 演化程序必须实现一个 Python 类(或等价实现),提供三个方法:
    • init() → solution – 返回一个有效的起始点。
    • improve(solution) → better_solution – 确定性或随机性的改进,且永不降低适应度。
    • perturb(solution, intensity) → new_solution – 注入受控随机性以进行探索。
  2. 进化循环 – 外部优化器(仍由 LLM 驱动)在满足接口的 程序 上进行搜索。适应度通过对 init 输出反复应用 improveperturb 来衡量,遵循强度递减的调度(类似模拟退火)。
  3. LLM 提示 – LLM 接收三方法约定的简要描述以及若干示例实现。随后它在奖励信号(来源于最终解的质量)引导下,对代码进行突变或重写。
  4. 人机交互的打磨 – 自动进化结束后,开发者可以进行微小编辑(例如微调超参数或添加守护子句),这常常能进一步提升性能。

结果与发现

Benchmark之前的 AlphaEvolve 最佳ImprovEvolve(auto)ImprovEvolve + 微小人工编辑
Hexagon packing (11)新最先进
Hexagon packing (12)新最先进
Hexagon packing (15)新最先进
Hexagon packing (16)新最先进
Hexagon packing (14)已改进
Hexagon packing (17)已改进
Hexagon packing (23)已改进
Second autocorrelation inequality0.961020.96258(新下界)

这些数字表明,仅仅通过重新构建程序表示,就能从同一 LLM 中提取更多“knowledge”,在以前需要大量提示工程或更长搜索预算的问题上推动了前沿。

实际意义

  • 更快的优化流水线原型设计 – 开发者可以向 LLM 提供一个小型脚手架类,让它为特定领域的问题(例如布局生成、芯片布线、超参数调优)发现自定义优化器。
  • 降低提示长度和成本 – 由于 LLM 只需推理三个简洁的方法,令牌使用量大幅下降,降低了基于云的 LLM 服务的 API 费用。
  • 模块化、可复用的代码improve/perturb 模式与语言无关,可导出为库组件,使下游项目能够调用已学习的优化器,而无需重新运行进化搜索。
  • 人机混合工作流 – 极少的手动编辑即可带来不成比例的收益,表明在困难的组合任务中采用“先 LLM、后开发者”的实用工作流。
  • AutoML 扩展的潜力 – ImprovEvolve 的方法与需要快速、可适应搜索算子的自动机器学习流水线高度契合,而非使用单一的整体模型。

限制与未来工作

  • 领域特定性 – 当前实验聚焦于几何打包和解析不等式;更广泛的领域(例如离散调度、神经架构搜索)可能需要更丰富的接口。
  • 对大语言模型的依赖 – 质量仍然取决于底层大语言模型的代码合成能力;较旧或规模较小的模型可能难以生成可运行的 improve 方法。
  • 搜索预算的扩展性 – 虽然每次迭代的 token 使用量较低,但外部进化循环在处理极高维问题时仍可能计算密集。
  • 对人工编辑的依赖 – 最佳结果需要“轻度人工编辑”版,这表明完全自主的性能可能尚未实现。

未来的研究可以探索 perturb 调度的自动超参数调优、多目标扩展(例如平衡运行时间与质量),以及将三方法合约应用于其他编程语言或底层代码(C/C++)。

作者

  • Alexey Kravatskiy
  • Valentin Khrulkov
  • Ivan Oseledets

论文信息

  • arXiv ID: 2602.10233v1
  • 分类: cs.NE, cs.AI, math.CA, math.MG, math.OC
  • 出版日期: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »