[Paper] READY:奖励发现用于元黑箱优化
发布: (2026年1月29日 GMT+8 23:23)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.21847v1
概述
元黑箱优化(MetaBBO)旨在让强化学习代理自动设计在众多问题上表现良好的优化算法。到目前为止,引导这些代理的奖励信号都是手工制作的,这可能带来偏差,甚至导致“奖励作弊”。本文介绍了 READY,一个利用大型语言模型(LLM)自动发现奖励函数的框架,从而提升 MetaBBO 流程的有效性和效率。
关键贡献
- LLM‑驱动的奖励发现 – 使用生成式 LLM 提出、评估并改进奖励函数,无需人工编写的规范。
- 奖励的进化搜索 – 将经典的“启发式进化”理念应用于迭代改进奖励程序,确保单调递进。
- 多任务进化架构 – 使得对多个 MetaBBO 变体并行发现奖励成为可能,实现跨任务知识转移并加速收敛。
- 实证验证 – 表明由 READY 发现的奖励能够持续提升现有 MetaBBO 方法在标准基准套件上的性能。
- 开源发布 – 提供可直接运行的实现(匿名链接),以保证可复现性并便于社区扩展。
方法论
- 基于提示的奖励生成 – 一个大型语言模型(例如 GPT‑4)接收 MetaBBO 设置的描述和一组设计约束,然后输出候选的 Python‑style 奖励函数。
- 评估循环 – 将每个候选奖励嵌入 MetaBBO 训练循环;在验证集上的优化器性能作为适应度得分。
- 进化细化 – 将得分最高的前 k 个候选进行变异(例如,微调常数、替换子表达式)并重组,形成新一代,类似遗传算法。这种“启发式进化”持续进行,直至性能趋于平稳。
- 多任务并行 – 若干 MetaBBO 任务(不同的基础优化器、问题族)各自运行进化流,但会定期交换高性能奖励片段。通过在任务间复用有用子组件,加速学习。
- 停止准则 – 当改进低于阈值或达到最大代数时,过程终止。
该流水线全自动化:开发者只需指定问题域和计算预算;READY 负责奖励合成、测试与进化。
结果与发现
- 性能提升 – 在三种广泛使用的 MetaBBO 基线(例如基于 RL 的优化器设计、神经架构搜索、超参数调优)中,READY 生成的奖励相比手工基线平均提升最终目标值 8–15 %。
- 收敛速度 – 多任务进化将达到给定性能水平所需的代数大约减少 30 %,这得益于跨任务知识转移。
- 对偏差的鲁棒性 – 发现的奖励对“奖励黑客”(即利用漏洞)的敏感性更低,因为进化压力直接优化下游性能而非代理指标。
- 消融研究 – 移除进化细化步骤会导致性能下降约 5 %,确认迭代改进至关重要。禁用多任务共享会减慢收敛并产生更不稳定的结果。
实际意义
- 更快的优化器原型设计 – 开发者可以让 READY 自动为新黑箱问题(例如调优编译器标志、神经架构搜索)设计奖励信号,而无需手工构造,从而省去数周的反复试验。
- 降低人为偏差 – 通过将奖励创建委托给 LLM 引导的进化循环,团队可以避免无意中将强化学习代理引向次优或不安全的行为。
- 即插即用的集成 – READY 输出标准的 Python 函数,能够轻松嵌入现有的基于 RL 的 MetaBBO 流水线(如 Ray Tune、Optuna)。
- 跨领域可扩展 – 多任务架构意味着单个 READY 部署可以为多个产品团队提供服务(例如云资源分配、自动化 A/B 测试),并共享已学习的奖励组件。
- “奖励市场”的潜在可能 – 企业可以托管针对特定行业的高质量、LLM 发现的奖励库,促进社区驱动的优化改进。
限制与未来工作
- LLM 依赖 – 初始奖励候选的质量取决于底层 LLM;较小或能力较弱的模型可能生成噪声或不安全的代码。
- 计算成本 – 对每个候选奖励运行完整的 MetaBBO 训练循环成本高昂;作者通过并行化进行缓解,但该方法仍需大量 GPU/CPU 资源。
- 泛化能力 – 虽然跨任务共享有帮助,但在某一基准套件上发现的奖励可能无法完美迁移到截然不同的问题族(例如离散组合问题与连续控制)。
- 安全检查 – 当前流水线缺乏对生成奖励代码的形式化验证,可能导致运行时错误或意外副作用。
未来的方向包括集成轻量级代理模型以估计奖励适应度、加入形式化程序分析以提升安全性,以及扩展 READY 使其能够同步共同进化优化器策略及其奖励。
作者
- Zechuan Huang
- Zhiguang Cao
- Hongshu Guo
- Yue‑Jiao Gong
- Zeyuan Ma
论文信息
- arXiv ID: 2601.21847v1
- 分类: cs.LG, cs.NE
- 出版时间: 2026年1月29日
- PDF: 下载 PDF