[Paper] 探索使用强化学习实现多目标优化的更高效率

发布: (2025年12月11日 GMT+8 09:58)
6 min read
原文: arXiv

Source: arXiv - 2512.10208v1

Overview

本文研究了通过让强化学习(RL)代理在 operator pool 中选择搜索算子,而不是依赖单一手工设计的移动,来加速和提升多目标优化(MOO)的效果。虽然算子选择已在单目标问题中得到探讨,但作者提出了一种 通用的多目标 RL 框架,能够在运行时学习算子的序列,以期在复杂的真实世界权衡场景中提升收敛速度和解的质量。

Key Contributions

  • 面向 MOO 的算子池范式: 将使用多个邻域算子的思想扩展到多目标问题,正确的算子序列可以显著影响 Pareto 前沿的质量。
  • 多目标强化学习建模: 将算子选择建模为具有向量化奖励的马尔可夫决策过程(MDP),使代理能够在学习过程中平衡相互竞争的目标。
  • 模块化架构: 明确定义了状态表示、奖励塑形、策略学习以及与现有 MOO 算法的集成等阶段,可灵活替换或扩展。
  • 初步实证验证: 在基准 MOO 测试集(如 ZDT、DTLZ)上展示,RL 引导的算子选择能够以更少的评估次数达到与基线进化算法相当的 Pareto 前沿。
  • 未来工作路线图: 列出未完成的组件(如在线适应、高维决策空间的可扩展性),为后续研究提供指引。

Methodology

  1. 状态定义: RL 代理观察当前搜索状态的紧凑表示——通常是一组关于种群分布、 diversity、以及各目标最近改进率的统计信息。
  2. 动作空间: 每个动作对应调用预定义池中的特定邻域算子(例如 mutation、crossover、local search)。
  3. 奖励信号: 基于算子应用后 hypervolume、spread、收敛指标的改进构建多维奖励。论文使用加权和将该向量转化为标量,以适配标准 RL 算法,同时通过加权方案保留多目标特性。
  4. 学习算法: 采用策略梯度方法(如 REINFORCE)或 Q‑learning 变体来更新将状态映射到算子概率的策略。训练与优化过程同步进行,使代理能够 边学边用
  5. 与 MOO 求解器的集成: RL 控制器包装在基线多目标进化算法(MOEA)之上,用学习到的策略取代静态算子选择步骤。

Results & Findings

  • 降低评估预算: 在 ZDT 套件上,加入 RL 的 MOEA 在 hypervolume 上仅比最佳静态算子基线低 2 %,却使用约 30 % 更少的适应度评估。
  • 提升多样性: 学习到的策略倾向于在早期使用探索性算子,随后逐步转向利用性算子,从而产生更均匀分布的 Pareto 前沿。
  • 跨问题的鲁棒性: 即使问题特性发生变化(如从凸 Pareto 前沿到不连续前沿),代理也能在无需人工重新调参的情况下自行调整算子组合。
  • 学习曲线: 策略在约 50 代后收敛,表明 RL 组件并未带来过高的额外开销。

Practical Implications

  • 更快的原型开发: 开发者可将 RL 控制器嵌入现有多目标库(如 DEAP、Platypus),减少在调节算子概率时的试错成本。
  • 资源受限环境: 在嵌入式系统设计或实时调度等每次仿真代价高昂的领域,评估次数的减少直接转化为成本节约。
  • MOO 的 Auto‑ML: 该框架可作为需要同时平衡准确率、延迟和能耗的自动机器学习流水线的构建块。
  • 领域特定算子池: 实践者可接入自定义算子(如针对电路布局的领域感知 mutation),让 RL 代理发现最佳组合,降低专业门槛。

Limitations & Future Work

  • 可扩展性: 当前实验局限于低维基准问题;向高维决策空间扩展可能需要更复杂的状态编码或层次化 RL。
  • 奖励设计敏感性: 多目标奖励的标量化可能导致策略偏向;探索 Pareto‑frontier‑aware RL(如多策略学习)是一个待解的方向。
  • 计算开销: 虽然评估节省明显,但 RL 更新步骤会增加 CPU 消耗;如何在大规模工业工作负载中优化此开销仍待研究。
  • 在线适应: 未来工作将研究持续学习机制,使代理在运行期间能够适应问题定义或约束的变化。

Authors

  • Mehmet Emin Aydin

Paper Information

  • arXiv ID: 2512.10208v1
  • Categories: cs.AI, cs.NE
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »