[Paper] SMOG:可扩展的元学习用于多目标贝叶斯优化
发布: (2026年1月30日 GMT+8 02:51)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.22131v1
概览
本文介绍了 SMOG,一种全新的元学习框架,为多目标贝叶斯优化(MOBO)配备了可扩展、数据驱动的先验。通过利用来自相关优化问题的历史数据,SMOG 能够对寻找 Pareto‑optimal 解的过程进行“热启动”,显著减少在实际工程和机器学习流水线中所需的昂贵黑箱评估次数。
关键贡献
- 统一的元学习 + 多目标贝叶斯优化模型 – 首个能够在许多过去任务以及多个目标上同时学习联合高斯过程(GP)先验的方法。
- 考虑相关性的多输出 GP – 明确捕获目标之间的统计依赖性,提高在目标问题上的代理模型保真度。
- 带残差核的闭式目标先验 – 在对任务元数据进行条件化后,SMOG 产生一个解析可求的先验,加上一个灵活的残差核,以适应新任务。
- 可扩展的层次训练 – 元任务 GP 只训练一次,缓存后复用,使时间复杂度在元任务数量上呈线性。
- 即插即用现有 MOBO 获取函数 – 不需要自定义获取函数;SMOG 的代理模型可直接用于标准工具,如期望超体积改进(EHVI)。
方法论
- Meta‑task 收集 – 收集一组相关的优化问题(例如,为不同数据集调优超参数)。每个 meta‑task 为所有目标提供一小批输入‑输出对。
- Multi‑output GP 构建 – 构建一个 joint GP,同时对所有目标建模,使用可分解为以下两部分的 kernel:
- metadata kernel:将具有相似描述符(例如,数据集规模、硬件规格)的任务关联起来。
- residual multi‑output kernel:捕获 metadata 未解释的任务特定细微差别。
- 基于 metadata 的条件化 – 当出现新的目标任务时,将其 metadata 输入到 GP 中。模型会解析地积分掉 metadata 的不确定性,得到目标 surrogate 的 closed‑form prior。
- 层次化训练 –
- Stage 1: 为每个 meta‑task 拟合独立的 GP(可并行)。
- Stage 2: 使用缓存的 Stage‑1 后验,联合学习 metadata 和 residual kernel 的超参数。该步骤随 meta‑task 数量线性扩展。
- 优化循环 – 在任意标准 MOBO 采集函数(如 EHVI、Pareto‑frontier entropy)中使用得到的 surrogate。采集函数选择下一个黑箱评估,将数据加入 surrogate,循环重复。
Source: …
结果与发现
| 实验 | 基准 | SMOG(元学习) | 加速 |
|---|---|---|---|
| 合成双目标基准(30 个元任务) | 标准 MOBO(无先验) | SMOG 增强的 MOBO | 约 2.5 倍更少的评估即可达到 90 % 超体积 |
| 多目标神经网络(准确率 vs. 延迟)的超参数调优,跨 10 个数据集 | 随机搜索 + MOBO | SMOG‑MOBO | GPU 总时长降低 40 % |
| 真实工程设计(重量 vs. 强度),使用 5 条历史设计 | 进化式 MOEA | SMOG‑MOBO | 在一半的预算内收敛到 Pareto 前沿 |
关键要点
- 元学习先验能够持续降低近似 Pareto 前沿所需的昂贵评估次数。
- 关联感知核提升了代理模型的精度,尤其在目标强耦合时(例如准确率 vs. 延迟)。
- 训练时间随元任务数量线性增长,验证了所宣称的可扩展性。
实际意义
- 更快的超参数搜索 用于多目标机器学习模型(例如,平衡准确率、推理时间和内存)。
- 加速工程设计周期,在仿真成本高昂(CFD、结构分析)且需优化多个性能指标的情况下。
- 持续改进流水线:随着新任务的解决,其数据会自动丰富元学习池,使未来的优化成本逐步降低。
- 易于集成:由于 SMOG 输出标准的 GP 后验,现有的 BO 库(BoTorch、GPyOpt、Emukit)可以直接使用,无需更改代码。
限制与未来工作
- 元数据质量依赖 – 该方法假设每个任务都有信息丰富、低维度的描述符;元数据质量差会削弱先验的效果。
- 高斯过程的可扩展性 – 虽然元训练是线性的,但每个高斯过程仍然在其自身数据规模上具有立方时间成本;对于极大的单任务数据集,可能需要稀疏高斯过程近似。
- 经验范围有限 – 实验仅覆盖约 30 个元任务;向数百甚至数千任务的扩展仍有待验证。
- 作者提出的未来方向 包括:将 SMOG 扩展到非高斯似然(例如分类),探索深度核学习以获得更丰富的表示,以及将该框架应用于强化学习的策略搜索,在其中奖励与安全等目标可能冲突。
作者
- Leonard Papenmeier
- Petru Tighineanu
论文信息
- arXiv ID: 2601.22131v1
- Categories: cs.LG
- Published: 2026年1月29日
- PDF: 下载 PDF