[Paper] 进化卓越:LLM-based Agents 的自动优化
发布: (2025年12月10日 GMT+8 04:48)
8 min read
原文: arXiv
Source: arXiv - 2512.09108v1
概览
本文介绍了 ARTEMIS,一个无需编码的进化搜索平台,能够自动调优大型语言模型(LLM)代理的众多可变部件——提示、工具描述、温度等——以提升真实场景下的性能。通过将代理的配置视为基因组,并使用语义感知的遗传算子进行进化,ARTEMIS 能够仅凭基准脚本和自然语言目标,将一个“裸骨”代理转变为高性能系统。
主要贡献
- 联合端到端优化 所有可配置的 LLM 代理组件(提示、工具规格、超参数),而不是单独优化每一项。
- 语义感知的遗传算子,尊重提示和工具描述的结构,实现有意义的变异和交叉。
- 无代码工作流:用户提供基准脚本和目标描述;ARTEMIS 自动发现可配置的旋钮,从日志中提取性能信号,并自动运行进化循环。
- 广泛的实证验证:在四种不同的代理(竞赛编程、代码优化、成本感知推理和教学机器人)上展示了个位数到 >30 % 的提升。
- 模型无关能力:兼容商业 API(如 GPT‑4)和本地运行的开源模型(Qwen2.5‑7B)。
方法论
- 配置发现 – ARTEMIS 解析提供的代理代码,定位所有面向用户的参数(提示模板、工具模式、温度、最大 token 数等)。
- 适应度提取 – 每次代理运行会生成日志;领域特定指标(接受率、执行时间、token 使用量、准确率)被自动提取,用作适应度得分。
- 进化循环
- 种群初始化 – 在合理范围内随机抽样每个可调旋钮的取值。
- 选择 – 保留表现最好的配置(精英主义),并以概率方式选取其他个体进行繁殖。
- 语义感知变异 – 用同义词替换提示中的词/短语,重新排列工具参数,或微调数值超参数,同时保持语法有效。
- 交叉 – 通过交换完整的提示块或工具定义来组合两个父代配置,确保子代仍可执行。
- 评估 – 在基准脚本上运行代理,收集适应度,重复固定代数或直至收敛。
- 结果导出 – 将最佳配置以可直接使用的 YAML/JSON 文件形式输出,可替换原代理的默认设置,无需任何代码修改。
结果与发现
| 代理(任务) | 基线指标 | ARTEMIS 改进后指标 | 相对提升 |
|---|---|---|---|
| ALE Agent(AtCoder 启发式竞赛) | 62 % 接受率 | 70.5 % 接受率 | +13.6 % |
| Mini‑SWE Agent(SWE‑Perf 代码优化) | 1.23× 加速 | 1.35× 加速 | +10.1 %(p < 0.01) |
| CrewAI Agent(Math Odyssey 成本感知推理) | 每次查询 1,200 token | 每次查询 760 token | ‑36.9 % token 使用(p < 0.01) |
| MathTales‑Teacher(使用 Qwen2.5‑7B 的 GSM8K) | 48 % 准确率 | 58.6 % 准确率 | +22 % |
关键要点
- 联合优化的收益大于单独调优提示或超参数。
- 即使是中等规模的开源模型也能获得显著提升,表明 ARTEMIS 并非仅限于“大 API” LLM。
- 进化过程在数十代(≈ 30 – 50)内收敛,对大多数基准只需单 GPU 几小时计算即可。
实际意义
- 快速原型 – 开发团队可以快速创建新的 LLM 代理,指向 ARTEMIS 进行代表性测试套件的调优,在数小时内获得可投入生产的配置,而非数周。
- 成本降低 – 通过降低 token 消耗(如 CrewAI 所示),组织可以显著削减 API 费用,尤其是高吞吐量服务。
- 模型无关部署 – 偏好本地部署的公司仍可获得性能提升,无需为每种模型的细节重写代理。
- 持续改进流水线 – ARTEMIS 可集成到 CI/CD 流程:每次代理或底层 LLM 更新都会触发自动进化运行,确保回归问题被及时捕获。
- 跨领域适用性 – 同一平台已成功优化竞赛编程、代码重构和教育辅导等代理,表明它可用于任何 LLM 驱动的工作流(如自动工单分配、数据抽取、界面生成)。
局限性与未来工作
- 搜索成本 – 虽然比人工调参便宜得多,进化过程仍需大量代理执行,对于极其昂贵的 API 调用或对延迟极为敏感的系统可能难以承受。
- 适应度信号质量 – ARTEMIS 依赖明确的性能指标;模糊或多目标(如速度与正确性平衡)的目标需要更复杂的适应度聚合方法。
- 语义变异范围 – 当前算子使用同义词词典和简单模板交换;更丰富的基于语言模型的变异可以探索更大的设计空间。
- 大规模配置空间的可扩展性 – 具有上百个旋钮的代理可能出现早熟收敛;未来工作可引入代理模型或贝叶斯优化混合策略。
- 人类可解释性 – 进化得到的提示可能变得不直观;提供可视化和解释工具,以说明为何特定措辞更优,将有助于提升信任与采纳。
结论:ARTEMIS 证明了自动化进化调优能够将“够用” 的 LLM 代理提升为高性能、成本效益显著的工具,为在生产环境中更广泛、更快速地采用代理式 AI 打开了大门。
作者
- Paul Brookes
- Vardan Voskanyan
- Rafail Giavrimis
- Matthew Truscott
- Mina Ilieva
- Chrystalla Pavlou
- Alexandru Staicu
- Manal Adham
- Will Evers‑Hood
- Jingzhi Gong
- Kejia Zhang
- Matvey Fedoseev
- Vishal Sharma
- Roman Bauer
- Zheng Wang
- Hema Nair
- Wei Jie
- Tianhua Xu
- Aurora Constantin
- Leslie Kanthan
- Michail Basios
论文信息
- arXiv ID: 2512.09108v1
- 分类: cs.SE, cs.AI
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF