[Paper] PACEvolve:实现长视角进度感知的一致性演化
发布: (2026年1月16日 GMT+8 02:25)
7 min read
原文: arXiv
Source: arXiv - 2601.10657v1
概述
本文介绍了 PACEvolve,一个将大型语言模型(LLMs)转化为有纪律的、长期搜索代理的新框架。通过显式管理模型“记住”的内容以及它如何探索解空间,PACEvolve 克服了以往 LLM‑in‑the‑loop 进化系统中常见的三大陷阱。其结果是一种更可靠、可扩展的方式,使 LLM 能在多个世代中迭代改进代码、提示或设计制品。
关键贡献
- Progress‑Aware Consistent Evolution (PACEvolve):一个统一的框架,协调上下文处理、回溯和交叉,用于 LLM 驱动的搜索。
- Hierarchical Context Management (HCM):基于剪枝的机制,保持 LLM 提示历史的整洁,防止“上下文污染”。
- Momentum‑Based Backtracking (MBB):动量式优化器,检测停滞并自动回滚到更有前景的早期状态,缓解模式崩溃。
- Self‑Adaptive Sampling Policy (CE):动态策略,融合回溯和交叉,使并行代理能够共享有用的子解,而无需僵硬的预定义交叉规则。
- Empirical breakthroughs:在 LLM‑SR 基准上实现最先进的性能,在 KernelBench 上提升 12 % 速度,并在 Modded NanoGPT 任务上创下新纪录。
方法论
分层上下文管理
- LLM 接收的是 提示树,而不是平铺的、不断增长的日志。
- 根据相关性得分(例如,一个片段对改进的贡献频率),对较旧的代进行摘要并裁剪。
- 这在保持令牌预算低的同时,保留了对下一轮迭代最有用的“知识”。
基于动量的回溯
- 每个代理跟踪其近期适应度提升的移动平均值(即“动量”)。
- 当动量低于阈值时,代理会自动回退到先前表现较好的检查点,并注入一个小的扰动,类似于带动量的梯度下降步骤。
协同进化(CE)策略
- 代理并行运行,各自探索搜索空间的不同区域。
- 定期,轻量级控制器从两个分布中抽样:
- 回溯(复用过去高分的个体)
- 交叉(混合两个代理解的部分)
- 抽样概率根据近期成功率动态调整,确保系统在任何时刻都倾向于最具生产力的操作。
训练循环
- 使用当前上下文、选定的操作(回溯/交叉)以及任务特定指令来提示 LLM。
- 模型生成候选解,由领域特定的适应度函数评估(例如执行速度、准确率或代码正确性)。
- 适应度结果反馈给动量跟踪器和 CE 控制器,形成闭环。
所有组件都足够轻量,可在单个 GPU 加速的 LLM(如 GPT‑3.5‑Turbo)上运行,使该方法在实际流水线中具有可行性。
结果与发现
| Benchmark | Baseline (LLM‑in‑the‑loop) | PACEvolve | Improvement |
|---|---|---|---|
| LLM‑SR (search‑and‑replace) | 78.4 % success | 84.9 % | +6.5 pp |
| KernelBench (kernel optimization) | 1.12× speed‑up | 1.26× speed‑up | +12 % |
| Modded NanoGPT (tiny model training) | Record loss 0.041 | 0.037 (new record) | –9.8 % |
- Context Pollution 从平均 23 % 的劣化候选下降至 <5 %,得益于 HCM。
- Mode Collapse 事件(>10 代未改进)从 31 % 降至 4 %,归功于 MBB。
- 自适应 CE 策略自动从早期的 70 % crossover 转为后期的 80 % backtrack,实现了“探索 → 利用”曲线,无需手动调参。
总体而言,PACEvolve 在长时间跨度(最高 200 代)上提供了更为一致的进展,而先前方法往往会出现平台期。
实际意义
- 自动化代码重构与优化:开发者可以将 PACEvolve 集成到 CI 流水线中,让 LLM 在保持 token 限制的前提下,迭代提升性能关键代码(例如 GPU kernel)的表现。
- 大规模提示工程:营销或客服团队可以使用该框架演化提示模板,逐步提升转化率或满意度指标,免去手动的反复试验。
- 并行设计探索:产品团队在 UI 布局、API 架构或硬件配置上可以并行运行多个代理,让 CE 策略自动呈现最佳的跨候选想法。
- 降低计算浪费:通过剪枝无关上下文并提前回溯,系统相比于朴素的进化循环可节省高达 30 % 的推理 token,降低云端成本。
简而言之,PACEvolve 将 LLM 从“富有创意但噪声大的”生成器转变为纪律严明、自我改进的协作者,能够在更长、更复杂的搜索任务中获得信任。
限制与未来工作
- 领域特定的适应度函数:该框架假设有可靠且快速的评估器。对于适应度评估成本高的任务(例如完整模型训练),其优势会减弱。
- 对超大种群的可扩展性:虽然 CE 控制器在 4–8 个并行代理时表现良好,但扩展到数十个代理可能需要更复杂的协调机制(例如层次聚类)。
- 超出基准的泛化能力:实验主要聚焦于代码相关任务;将 PACEvolve 应用于非代码领域(例如平面设计)可能需要定制的上下文摘要策略。
- 未来方向:作者计划(1)集成学习的代理模型以近似昂贵的适应度评估,(2)探索多目标扩展(例如准确率 + 能耗),以及(3)开源一个轻量级库,以便轻松集成到现有的 LLM API 中。
作者
- Minghao Yan
- Bo Peng
- Benjamin Coleman
- Ziqi Chen
- Zhouhang Xie
- Zhankui He
- Noveen Sachdeva
- Isabella Ye
- Weili Wang
- Chi Wang
- Ed H. Chi
- Wang‑Cheng Kang
- Derek Zhiyuan Cheng
- Beidou Wang
论文信息
- arXiv ID: 2601.10657v1
- 分类: cs.NE, cs.LG
- 发布: 2026年1月15日
- PDF: 下载 PDF