[Paper] ImprovEvolve：让 AlphaEvolve 改进输入解并即兴创作

发布: 2天前 (2026年2月11日 GMT+8 03:23)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10233v1

Overview

本文介绍了 ImprovEvolve，这是对 AlphaEvolve 框架的轻量级扩展，使大型语言模型（LLM）能够充当“智能”优化器。作者并不是进化完整的生成解的程序，而是进化一个 三方法接口——init()、improve() 和 perturb()——用于启动解、改进解以及探索邻近候选。此转变显著降低了 LLM 的推理负担，并在经典的几何装箱和不等式优化基准上取得了新的最先进成果。

关键贡献

程序级抽象：将进化目标从完整的解决方案脚本重新定义为具有固定 API 的可重用“改进引擎”。
LLM 友好设计：通过限制 LLM 的认知负荷（仅三个明确定义的方法），进化过程变得更稳定且数据效率更高。
实证突破：
- 为六边形嵌套六边形实例（11、12、15、16 个六边形）提供了新的最佳已知包装，并在对 14、17、23 个六边形进行轻微人工微调后进一步提升。
- 为第二自相关不等式提升了下界（0.96258 对比 AlphaEvolve 的 0.96102）。
简易集成：ImprovEvolve 可以以最少的代码更改直接嵌入任何 AlphaEvolve 风格的流水线。

方法论

接口定义 – 演化程序必须实现一个 Python 类（或等价实现），提供三个方法：
- init() → solution – 返回一个有效的起始点。
- improve(solution) → better_solution – 确定性或随机性的改进，且永不降低适应度。
- perturb(solution, intensity) → new_solution – 注入受控随机性以进行探索。
进化循环 – 外部优化器（仍由 LLM 驱动）在满足接口的程序上进行搜索。适应度通过对 init 输出反复应用 improve 和 perturb 来衡量，遵循强度递减的调度（类似模拟退火）。
LLM 提示 – LLM 接收三方法约定的简要描述以及若干示例实现。随后它在奖励信号（来源于最终解的质量）引导下，对代码进行突变或重写。
人机交互的打磨 – 自动进化结束后，开发者可以进行微小编辑（例如微调超参数或添加守护子句），这常常能进一步提升性能。

结果与发现

Benchmark	之前的 AlphaEvolve 最佳	ImprovEvolve（auto）	ImprovEvolve + 微小人工编辑
Hexagon packing (11)	–	新最先进	–
Hexagon packing (12)	–	新最先进	–
Hexagon packing (15)	–	新最先进	–
Hexagon packing (16)	–	新最先进	–
Hexagon packing (14)	–	–	已改进
Hexagon packing (17)	–	–	已改进
Hexagon packing (23)	–	–	已改进
Second autocorrelation inequality	0.96102	–	0.96258（新下界）

这些数字表明，仅仅通过重新构建程序表示，就能从同一 LLM 中提取更多“knowledge”，在以前需要大量提示工程或更长搜索预算的问题上推动了前沿。

实际意义

更快的优化流水线原型设计 – 开发者可以向 LLM 提供一个小型脚手架类，让它为特定领域的问题（例如布局生成、芯片布线、超参数调优）发现自定义优化器。
降低提示长度和成本 – 由于 LLM 只需推理三个简洁的方法，令牌使用量大幅下降，降低了基于云的 LLM 服务的 API 费用。
模块化、可复用的代码 – improve/perturb 模式与语言无关，可导出为库组件，使下游项目能够调用已学习的优化器，而无需重新运行进化搜索。
人机混合工作流 – 极少的手动编辑即可带来不成比例的收益，表明在困难的组合任务中采用“先 LLM、后开发者”的实用工作流。
AutoML 扩展的潜力 – ImprovEvolve 的方法与需要快速、可适应搜索算子的自动机器学习流水线高度契合，而非使用单一的整体模型。

限制与未来工作

领域特定性 – 当前实验聚焦于几何打包和解析不等式；更广泛的领域（例如离散调度、神经架构搜索）可能需要更丰富的接口。
对大语言模型的依赖 – 质量仍然取决于底层大语言模型的代码合成能力；较旧或规模较小的模型可能难以生成可运行的 improve 方法。
搜索预算的扩展性 – 虽然每次迭代的 token 使用量较低，但外部进化循环在处理极高维问题时仍可能计算密集。
对人工编辑的依赖 – 最佳结果需要“轻度人工编辑”版，这表明完全自主的性能可能尚未实现。

未来的研究可以探索 perturb 调度的自动超参数调优、多目标扩展（例如平衡运行时间与质量），以及将三方法合约应用于其他编程语言或底层代码（C/C++）。

作者

Alexey Kravatskiy
Valentin Khrulkov
Ivan Oseledets

论文信息

arXiv ID: 2602.10233v1
分类: cs.NE, cs.AI, math.CA, math.MG, math.OC
出版日期: 2026年2月10日
PDF: 下载 PDF

[Paper] ImprovEvolve：让 AlphaEvolve 改进输入解并即兴创作

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用