[Paper] COBRA++：增强的 COBRA 优化器，配备扩展的代理池和强化的代理选择

发布: 1周前 (2026年1月30日 GMT+8 14:27)

7 分钟阅读

原文: arXiv

请提供您希望翻译的具体文本内容（除保留的来源链接外），我将按照要求将其译成简体中文。

概述

本文介绍了 COBRA++，这是 COBRA 约束优化框架的下一代版本。通过扩展代理模型池并让强化学习（RL）代理在运行时挑选最佳代理，作者显著减少了在真实世界、约束繁重的问题中所需的昂贵函数评估次数。这使得高维、评估成本高的优化在工业规模的工程和 AI 工作流中更具实用性。

增强的代理模型池 – 向经典的径向基函数（RBF）池中添加了若干轻量且多样的模型（例如多项式回归、神经网络代理），在不增加额外评估成本的情况下提升近似能力。
基于强化学习的代理选择 – 训练一个策略，在每次迭代中选择最有前景的代理，取代先前 COBRA 变体中手工制定的静态选择规则。
跨问题分布的端到端学习 – 在精心挑选的约束基准问题集上优化选择策略，使其能够推广到未见任务。
全面的实证验证 – 多维实验显示相较于原始 COBRA 及其早期自适应版本，能够实现一致的加速（评估次数最多减少约 30 %）并提升解的质量。
消融研究 – 分离出扩大代理池和强化学习选择器的影响，确认每个组件都对整体提升有显著贡献。

问题设定 – 目标是一个黑箱约束优化问题，其中每个目标/约束的评估代价高昂（例如 CFD 仿真、受资源限制的超参数调优）。
代理模型池扩展 – 除了标准的 RBF，作者还加入了：
- 线性和二次回归模型（训练快速，捕获全局趋势）。
- 小型前馈神经网络（捕获非线性）。
- Kriging/高斯过程近似器用于不确定性量化。
强化学习选择器
- 状态：当前代理模型的性能指标（预测误差、不确定性）、迭代次数、可行性比例以及问题维度的轻量嵌入。
- 动作：从池中挑选一个代理模型用于下一轮的代理辅助搜索。
- 奖励：可行性提升、目标函数下降和节省的评估成本的加权组合。
- 该策略使用近端策略优化（PPO）在多样的合成约束问题集合上进行训练，然后冻结用于部署。
双阶段 COBRA 循环 – 与原始 COBRA 相同，COBRA++ 在 (a) 可行性搜索阶段和 (b) 目标优化阶段之间交替进行，但现在每个阶段都使用由强化学习策略选出的代理模型。

Metric	Vanilla COBRA	Adaptive COBRA (hand‑tuned)	COBRA++
Avg. # evaluations to reach 95 % feasibility	1,200	1,050	840
Final objective gap (relative to known optimum)	4.8 %	3.9 %	2.6 %
Runtime overhead (policy inference)	–	–	< 0.5 % of total time
Success rate on 30 benchmark problems (≥ 90 % feasibility)	78 %	84 %	92 %

关键要点：扩大的代理池提升了模型保真度，而 RL 选择器能够在每一步始终挑选出能够带来最大可行性或目标提升的代理。消融实验表明，去除 RL 选择器后性能会回落到手动调节的自适应变体水平，进一步确认了选择器的核心作用。

Reduced Cloud/Compute Costs – 更少的昂贵黑盒评估直接转化为在气动形状优化、电路设计或大规模超参数搜索等任务上的 GPU/CPU 时间降低。
Plug‑and‑Play for Existing Pipelines – COBRA++ 可以包装任何已有的 COBRA 实现；开发者只需提供评估函数和约束定义。
Robustness to New Constraints – 由于代理选择器在约束分布上进行训练，当引入新的或更严格的约束时，它会自动适应，免去工程师手动调参的工作。
Potential for AutoML Platforms – 基于强化学习的代理选择范式可集成到 AutoML 服务中，加速受约束的模型选择问题（例如，考虑延迟的神经架构搜索）。
Open‑source Friendly – 作者提供了一个轻量级的 Python 库，内含预训练策略，便于开发者在自己的数据集上进行实验。