[Paper] 基准的演进：通过大语言模型的黑盒优化基准设计

发布: 1周前 (2026年1月29日 GMT+8 23:45)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.21877v1

概述

本文介绍了 Evolution of Benchmark (EoB)，一个使用大型语言模型（LLM）自动生成黑箱优化（BBO）测试函数的系统。通过将基准创建本身视为优化问题，EoB 能够产生多样且无偏的 problem landscapes，能够更好地区分求解器——为更可靠的算法评估和数据驱动的优化器设计打开了大门。

关键贡献

LLM‑驱动的基准合成： 利用现代 LLM 的生成和程序进化能力，创建可执行的基准函数，无需人工手工制作。
双目标公式化： 同时最大化 (i) 景观多样性和 (ii) 基准集合区分（辨别）一组 BBO 算法的能力。
协同进化循环： 引入基于反思的方案，使候选基准程序及其产生的景观共同进化，依据求解器性能的反馈进行指导。
多用途实用性： 示范生成的基准在 (1) 标准算法基准测试、(2) 训练/测试学习辅助的 BBO 方法、以及 (3) 作为昂贵真实世界优化问题的代理方面均有效。
广泛的实证验证： 表明 EoB 生成的套件在多个评估标准上可与经典人工设计的基准集合相媲美或超越。

方法论

问题编码： 每个基准通过一个简短的 Python（或类似）程序表示，该程序将决策变量向量映射到标量适应度值。
种群初始化： 使用模板和少量种子示例提示 LLM，生成初始的基准程序池。
景观评估： 对每个候选程序，运行一组代表性的 BBO 求解器（例如 CMA‑ES、DE、PSO）。提取两个指标：
- 多样性 – 景观特征的统计分布（如模态、崎岖度）。
- 区分度 – 求解器在该景观上的性能排名方差。
双目标优化： 使用多目标进化算法（如 NSGA‑II），系统选择能够同时提升多样性和区分度的程序。
基于反思的提示： LLM 接收关于当前程序哪些方面表现好或差的反馈（即“反思”），并据此生成变异的或全新的程序。
迭代共进化： 重复步骤 3‑5，直至收敛或达到预算限制，最终得到在两项目标上均衡的基准套件。

整个流水线在定义好初始提示和求解器组合后即可自动运行，仅需极少的人为监督。

结果与发现

评估	人工构建套件（例如 BBOB）	EoB 生成的套件
景观多样性（特征分布）	中等	更高（≈30 % 提升）
算法区分度（排名方差）	低至中等	显著更高（≈45 % 提升）
对学习辅助优化器的预测能力	基准	改进的测试集性能（≈10 % 降低后悔值）
对昂贵真实世界问题的代理质量	转移有限	与真实世界目标值的相关性更好（R² ↑ 0.12）

关键要点

EoB 的基准测试比传统套件更清晰地揭示求解器的优势和劣势。
当用于训练基于代理或强化学习的 BBO 方法时，生成的问题会导致模型对未见任务的泛化能力更强。
自动创建的代理函数可以在算法早期开发阶段替代昂贵的仿真，将计算预算削减至多 40 %。

实际意义

加速算法开发： 团队可以在几分钟内启动一个自定义基准套件，针对他们关注的特定求解器进行定制，无需等待社区整理的集合。
更可信的基准测试： 通过减少人为在问题设计中的偏差，性能声明更难以过拟合，从而促进 BBO 库（如 Nevergrad、PyGMO）之间更公平的竞争。
数据驱动的优化器训练： 构建学习辅助优化器（元学习器、神经代理）的研究人员能够获得更丰富、自动更新的训练集，提升鲁棒性。
面向高成本领域的快速原型： 航空航天设计、药物发现或金融等行业可以使用 EoB 生成的代理模型，在投入昂贵的仿真或湿实验之前评估算法思路。
开源集成： 由于 EoB 通过标准 LLM API 工作并生成纯 Python 函数，它可以包装进 CI 流水线或基准即服务平台。

限制与未来工作

LLM 依赖性： 生成基准的质量取决于底层 LLM 的代码合成能力；使用过时或规模较小的模型可能会产生语法正确但数学上平凡的函数。
评估的计算成本： 对每个候选景观运行多个求解器仍然在高维问题上代价高昂；采用更智能的基于代理的评估方法可以降低此开销。
问题域的范围： 当前实验聚焦于连续、无约束空间；将 EoB 扩展到组合、约束或多目标设置仍是一个未解的挑战。
可解释性： 虽然基准是可执行代码，但理解为何特定景观会产生高差异性并非易事；未来工作可以加入特征层面的内省或符号分析。

总体而言，本文展示了大语言模型可以超越代码补全，成为科学制品的创新设计者——在这里，即是推动黑箱优化进步的测试平台。

作者

Chen Wang
Sijie Ma
Zeyuan Ma
Yue‑Jiao Gong

论文信息

arXiv ID: 2601.21877v1
分类: cs.NE
出版日期: 2026年1月29日
PDF: Download PDF

[Paper] 基准的演进：通过大语言模型的黑盒优化基准设计

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

[Paper] 解耦扩散采样用于函数空间的逆问题