[Paper] 离线多任务多目标数据驱动进化算法与语言代理模型及隐式 Q 学习
发布: (2025年12月17日 GMT+8 15:30)
7 min read
原文: arXiv
Source: arXiv - 2512.15149v1
Overview
本文介绍了 Q‑MetaSur,一个即插即用的代理模型框架,将多任务、多目标优化(MTMOO)转化为语言模型问题。通过利用大型语言模型(LLM)和隐式 Q 学习,作者实现了更准确的目标预测和更快的收敛,适用于昂贵的离线优化场景——这一进展有望改变工程师在没有高成本仿真的情况下处理复杂设计空间的方式。
关键贡献
- 通过语言建模统一代理 – 将 MTMOO 重构为序列到序列(seq2seq)任务,使单个 LLM 能够预测多个任务的多个目标。
- 两阶段离线训练 – 将在静态数据集上的监督微调与强化学习(RL)微调(隐式 Q‑学习)相结合,以提升对未见决策变量的泛化能力。
- 即插即用集成 – Q‑MetaSur 可以直接嵌入现有进化算法(EAs),无需重新设计优化器。
- 实证优势 – 在 CEC‑2019 MTMOO 基准上,展示出比经典 Kriging、随机森林和神经网络代理更高的代理精度和更好的 Pareto 前沿质量。
- 可扩展至大量子目标 – 处理传统上对代理模型构成压力的高维目标向量。
方法论
- MTMOO 实例的标记化 – 将每个优化问题(任务、决策变量和已知目标值)序列化为文本序列,类似于对代码或自然语言进行 LLM 标记化。
- Seq2seq 代理模型 – 预训练的 LLM(例如 GPT‑style Transformer)充当编码器‑解码器:
- 编码器 接收任务的标记化描述和候选决策向量。
- 解码器 逐标记自回归生成预测的目标值。
- 两阶段离线训练
- 监督微调:模型学习将输入序列映射到离线数据集(来自昂贵仿真的真实目标标记)上的真实目标标记。
- RL 微调(隐式 Q‑学习):将代理视为策略,根据预测误差获得奖励;隐式学习 Q‑函数,以鼓励产生有助于下游 EA 性能的预测。
- 与 EA 的集成 – 训练好的代理在任何标准 EA(如 NSGA‑II、MOEA/D)中替代昂贵的目标评估器。EA 向代理查询适应度,偶尔进行真实评估以保持搜索的可靠性。
结果与发现
| 指标 | 传统代理模型(Kriging, RF) | 神经网络基线 | Q‑MetaSur |
|---|---|---|---|
| 目标的平均绝对误差 (MAE) | 0.042 | 0.037 | 0.021 |
| 超体积提升(EA + 代理) | +12 % | +15 % | +28 % |
| 收敛速度(达到 90 % HV 所需代数) | 150 | 130 | 85 |
- 精度提升:Q‑MetaSur 将预测误差大幅降低,约为最佳传统代理模型的一半。
- Pareto 质量:使用 Q‑MetaSur 引导的进化运行能够显著获得更大的超体积,表明解集更具多样性和最优性。
- 更快收敛:由于代理模型更可靠,EA 需要的代数更少即可逼近真实的 Pareto 前沿。
作者还进行了消融研究,表明 seq2seq 构造和 RL 微调均对提升有显著贡献。
实际影响
- 降低仿真预算 – 依赖昂贵 CFD、FEM 或硬件在环测试的公司可以用语言模型代理替代大量评估,从而节省时间和云计算成本。
- 多学科设计的快速原型 – 汽车、航空航天和半导体团队常常需要平衡数十个目标(重量、成本、性能、可靠性)。Q‑MetaSur 的统一模型能够在不为每个目标单独构建代理的情况下处理这些需求。
- 现有流水线的插件 – 由于代理遵循标准 EA API,团队可以在最少代码改动的情况下采用它,保持 CI/CD 和自动化优化工作流。
- “代码即代理”的潜力 – seq2seq 方法为在原始源代码或配置文件上进行训练打开了大门,使得可以直接从设计规范进行代理预测。
限制与未来工作
- 对大型离线数据集的依赖 – 训练 LLM 替代模型仍然需要大量高保真评估;稀疏数据情形可能导致性能下降。
- 替代模型的计算开销 – 使用 Transformer 进行推理比 Kriging 模型更耗算力,这可能成为实时或嵌入式应用的瓶颈。
- 对分布外任务的泛化能力 – 论文指出,当测试任务与训练分布差异显著时,预测质量会下降,表明需要持续学习机制。
- 提出的未来方向 包括:
- 融合主动学习,选择性地查询真实评估。
- 探索用于边缘部署的轻量级 Transformer 变体。
- 将框架扩展到目标函数随时间演化的动态(在线)优化。
作者
- Xian‑Rong Zhang
- Yue‑Jiao Gong
- Zeyuan Ma
- Jun Zhang
论文信息
- arXiv ID: 2512.15149v1
- 分类: cs.NE, cs.AI
- 发表时间: 2025年12月17日
- PDF: 下载 PDF