[Paper] PACEvolve:实现长视角进度感知的一致性演化

发布: (2026年1月16日 GMT+8 02:25)
7 min read
原文: arXiv

Source: arXiv - 2601.10657v1

概述

本文介绍了 PACEvolve,一个将大型语言模型(LLMs)转化为有纪律的、长期搜索代理的新框架。通过显式管理模型“记住”的内容以及它如何探索解空间,PACEvolve 克服了以往 LLM‑in‑the‑loop 进化系统中常见的三大陷阱。其结果是一种更可靠、可扩展的方式,使 LLM 能在多个世代中迭代改进代码、提示或设计制品。

关键贡献

  • Progress‑Aware Consistent Evolution (PACEvolve):一个统一的框架,协调上下文处理、回溯和交叉,用于 LLM 驱动的搜索。
  • Hierarchical Context Management (HCM):基于剪枝的机制,保持 LLM 提示历史的整洁,防止“上下文污染”。
  • Momentum‑Based Backtracking (MBB):动量式优化器,检测停滞并自动回滚到更有前景的早期状态,缓解模式崩溃。
  • Self‑Adaptive Sampling Policy (CE):动态策略,融合回溯和交叉,使并行代理能够共享有用的子解,而无需僵硬的预定义交叉规则。
  • Empirical breakthroughs:在 LLM‑SR 基准上实现最先进的性能,在 KernelBench 上提升 12 % 速度,并在 Modded NanoGPT 任务上创下新纪录。

方法论

分层上下文管理

  1. LLM 接收的是 提示树,而不是平铺的、不断增长的日志。
  2. 根据相关性得分(例如,一个片段对改进的贡献频率),对较旧的代进行摘要并裁剪。
  3. 这在保持令牌预算低的同时,保留了对下一轮迭代最有用的“知识”。

基于动量的回溯

  1. 每个代理跟踪其近期适应度提升的移动平均值(即“动量”)。
  2. 当动量低于阈值时,代理会自动回退到先前表现较好的检查点,并注入一个小的扰动,类似于带动量的梯度下降步骤。

协同进化(CE)策略

  1. 代理并行运行,各自探索搜索空间的不同区域。
  2. 定期,轻量级控制器从两个分布中抽样:
    • 回溯(复用过去高分的个体)
    • 交叉(混合两个代理解的部分)
  3. 抽样概率根据近期成功率动态调整,确保系统在任何时刻都倾向于最具生产力的操作。

训练循环

  1. 使用当前上下文、选定的操作(回溯/交叉)以及任务特定指令来提示 LLM。
  2. 模型生成候选解,由领域特定的适应度函数评估(例如执行速度、准确率或代码正确性)。
  3. 适应度结果反馈给动量跟踪器和 CE 控制器,形成闭环。

所有组件都足够轻量,可在单个 GPU 加速的 LLM(如 GPT‑3.5‑Turbo)上运行,使该方法在实际流水线中具有可行性。

结果与发现

BenchmarkBaseline (LLM‑in‑the‑loop)PACEvolveImprovement
LLM‑SR (search‑and‑replace)78.4 % success84.9 %+6.5 pp
KernelBench (kernel optimization)1.12× speed‑up1.26× speed‑up+12 %
Modded NanoGPT (tiny model training)Record loss 0.0410.037 (new record)–9.8 %
  • Context Pollution 从平均 23 % 的劣化候选下降至 <5 %,得益于 HCM。
  • Mode Collapse 事件(>10 代未改进)从 31 % 降至 4 %,归功于 MBB。
  • 自适应 CE 策略自动从早期的 70 % crossover 转为后期的 80 % backtrack,实现了“探索 → 利用”曲线,无需手动调参。

总体而言,PACEvolve 在长时间跨度(最高 200 代)上提供了更为一致的进展,而先前方法往往会出现平台期。

实际意义

  • 自动化代码重构与优化:开发者可以将 PACEvolve 集成到 CI 流水线中,让 LLM 在保持 token 限制的前提下,迭代提升性能关键代码(例如 GPU kernel)的表现。
  • 大规模提示工程:营销或客服团队可以使用该框架演化提示模板,逐步提升转化率或满意度指标,免去手动的反复试验。
  • 并行设计探索:产品团队在 UI 布局、API 架构或硬件配置上可以并行运行多个代理,让 CE 策略自动呈现最佳的跨候选想法。
  • 降低计算浪费:通过剪枝无关上下文并提前回溯,系统相比于朴素的进化循环可节省高达 30 % 的推理 token,降低云端成本。

简而言之,PACEvolve 将 LLM 从“富有创意但噪声大的”生成器转变为纪律严明、自我改进的协作者,能够在更长、更复杂的搜索任务中获得信任。

限制与未来工作

  • 领域特定的适应度函数:该框架假设有可靠且快速的评估器。对于适应度评估成本高的任务(例如完整模型训练),其优势会减弱。
  • 对超大种群的可扩展性:虽然 CE 控制器在 4–8 个并行代理时表现良好,但扩展到数十个代理可能需要更复杂的协调机制(例如层次聚类)。
  • 超出基准的泛化能力:实验主要聚焦于代码相关任务;将 PACEvolve 应用于非代码领域(例如平面设计)可能需要定制的上下文摘要策略。
  • 未来方向:作者计划(1)集成学习的代理模型以近似昂贵的适应度评估,(2)探索多目标扩展(例如准确率 + 能耗),以及(3)开源一个轻量级库,以便轻松集成到现有的 LLM API 中。

作者

  • Minghao Yan
  • Bo Peng
  • Benjamin Coleman
  • Ziqi Chen
  • Zhouhang Xie
  • Zhankui He
  • Noveen Sachdeva
  • Isabella Ye
  • Weili Wang
  • Chi Wang
  • Ed H. Chi
  • Wang‑Cheng Kang
  • Derek Zhiyuan Cheng
  • Beidou Wang

论文信息

  • arXiv ID: 2601.10657v1
  • 分类: cs.NE, cs.LG
  • 发布: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »