[Paper] 离线多任务多目标数据驱动进化算法与语言代理模型及隐式 Q 学习

发布: 1个月前 (2025年12月17日 GMT+8 15:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15149v1

Overview

本文介绍了 Q‑MetaSur，一个即插即用的代理模型框架，将多任务、多目标优化（MTMOO）转化为语言模型问题。通过利用大型语言模型（LLM）和隐式 Q 学习，作者实现了更准确的目标预测和更快的收敛，适用于昂贵的离线优化场景——这一进展有望改变工程师在没有高成本仿真的情况下处理复杂设计空间的方式。

关键贡献

通过语言建模统一代理 – 将 MTMOO 重构为序列到序列（seq2seq）任务，使单个 LLM 能够预测多个任务的多个目标。
两阶段离线训练 – 将在静态数据集上的监督微调与强化学习（RL）微调（隐式 Q‑学习）相结合，以提升对未见决策变量的泛化能力。
即插即用集成 – Q‑MetaSur 可以直接嵌入现有进化算法（EAs），无需重新设计优化器。
实证优势 – 在 CEC‑2019 MTMOO 基准上，展示出比经典 Kriging、随机森林和神经网络代理更高的代理精度和更好的 Pareto 前沿质量。
可扩展至大量子目标 – 处理传统上对代理模型构成压力的高维目标向量。

方法论

MTMOO 实例的标记化 – 将每个优化问题（任务、决策变量和已知目标值）序列化为文本序列，类似于对代码或自然语言进行 LLM 标记化。
Seq2seq 代理模型 – 预训练的 LLM（例如 GPT‑style Transformer）充当编码器‑解码器：
- 编码器 接收任务的标记化描述和候选决策向量。
- 解码器 逐标记自回归生成预测的目标值。
两阶段离线训练
- 监督微调：模型学习将输入序列映射到离线数据集（来自昂贵仿真的真实目标标记）上的真实目标标记。
- RL 微调（隐式 Q‑学习）：将代理视为策略，根据预测误差获得奖励；隐式学习 Q‑函数，以鼓励产生有助于下游 EA 性能的预测。
与 EA 的集成 – 训练好的代理在任何标准 EA（如 NSGA‑II、MOEA/D）中替代昂贵的目标评估器。EA 向代理查询适应度，偶尔进行真实评估以保持搜索的可靠性。

结果与发现

指标	传统代理模型（Kriging, RF）	神经网络基线	Q‑MetaSur
目标的平均绝对误差 (MAE)	0.042	0.037	0.021
超体积提升（EA + 代理）	+12 %	+15 %	+28 %
收敛速度（达到 90 % HV 所需代数）	150	130	85

精度提升：Q‑MetaSur 将预测误差大幅降低，约为最佳传统代理模型的一半。
Pareto 质量：使用 Q‑MetaSur 引导的进化运行能够显著获得更大的超体积，表明解集更具多样性和最优性。
更快收敛：由于代理模型更可靠，EA 需要的代数更少即可逼近真实的 Pareto 前沿。

作者还进行了消融研究，表明 seq2seq 构造和 RL 微调均对提升有显著贡献。

实际影响

降低仿真预算 – 依赖昂贵 CFD、FEM 或硬件在环测试的公司可以用语言模型代理替代大量评估，从而节省时间和云计算成本。
多学科设计的快速原型 – 汽车、航空航天和半导体团队常常需要平衡数十个目标（重量、成本、性能、可靠性）。Q‑MetaSur 的统一模型能够在不为每个目标单独构建代理的情况下处理这些需求。
现有流水线的插件 – 由于代理遵循标准 EA API，团队可以在最少代码改动的情况下采用它，保持 CI/CD 和自动化优化工作流。
“代码即代理”的潜力 – seq2seq 方法为在原始源代码或配置文件上进行训练打开了大门，使得可以直接从设计规范进行代理预测。

限制与未来工作

对大型离线数据集的依赖 – 训练 LLM 替代模型仍然需要大量高保真评估；稀疏数据情形可能导致性能下降。
替代模型的计算开销 – 使用 Transformer 进行推理比 Kriging 模型更耗算力，这可能成为实时或嵌入式应用的瓶颈。
对分布外任务的泛化能力 – 论文指出，当测试任务与训练分布差异显著时，预测质量会下降，表明需要持续学习机制。
提出的未来方向 包括：
1. 融合主动学习，选择性地查询真实评估。
2. 探索用于边缘部署的轻量级 Transformer 变体。
3. 将框架扩展到目标函数随时间演化的动态（在线）优化。

作者

Xian‑Rong Zhang
Yue‑Jiao Gong
Zeyuan Ma
Jun Zhang

论文信息

arXiv ID: 2512.15149v1
分类: cs.NE, cs.AI
发表时间: 2025年12月17日
PDF: 下载 PDF

[Paper] 离线多任务多目标数据驱动进化算法与语言代理模型及隐式 Q 学习

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构