[Paper] PACEvolve：实现长视角进度感知的一致性演化

发布: 3周前 (2026年1月16日 GMT+8 02:25)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10657v1

概述

本文介绍了 PACEvolve，一个将大型语言模型（LLMs）转化为有纪律的、长期搜索代理的新框架。通过显式管理模型“记住”的内容以及它如何探索解空间，PACEvolve 克服了以往 LLM‑in‑the‑loop 进化系统中常见的三大陷阱。其结果是一种更可靠、可扩展的方式，使 LLM 能在多个世代中迭代改进代码、提示或设计制品。

关键贡献

Progress‑Aware Consistent Evolution (PACEvolve)：一个统一的框架，协调上下文处理、回溯和交叉，用于 LLM 驱动的搜索。
Hierarchical Context Management (HCM)：基于剪枝的机制，保持 LLM 提示历史的整洁，防止“上下文污染”。
Momentum‑Based Backtracking (MBB)：动量式优化器，检测停滞并自动回滚到更有前景的早期状态，缓解模式崩溃。
Self‑Adaptive Sampling Policy (CE)：动态策略，融合回溯和交叉，使并行代理能够共享有用的子解，而无需僵硬的预定义交叉规则。
Empirical breakthroughs：在 LLM‑SR 基准上实现最先进的性能，在 KernelBench 上提升 12 % 速度，并在 Modded NanoGPT 任务上创下新纪录。

方法论

分层上下文管理

LLM 接收的是 提示树，而不是平铺的、不断增长的日志。
根据相关性得分（例如，一个片段对改进的贡献频率），对较旧的代进行摘要并裁剪。
这在保持令牌预算低的同时，保留了对下一轮迭代最有用的“知识”。

基于动量的回溯

每个代理跟踪其近期适应度提升的移动平均值（即“动量”）。
当动量低于阈值时，代理会自动回退到先前表现较好的检查点，并注入一个小的扰动，类似于带动量的梯度下降步骤。

协同进化（CE）策略

代理并行运行，各自探索搜索空间的不同区域。
定期，轻量级控制器从两个分布中抽样：
- 回溯（复用过去高分的个体）
- 交叉（混合两个代理解的部分）
抽样概率根据近期成功率动态调整，确保系统在任何时刻都倾向于最具生产力的操作。

训练循环

使用当前上下文、选定的操作（回溯/交叉）以及任务特定指令来提示 LLM。
模型生成候选解，由领域特定的适应度函数评估（例如执行速度、准确率或代码正确性）。
适应度结果反馈给动量跟踪器和 CE 控制器，形成闭环。

所有组件都足够轻量，可在单个 GPU 加速的 LLM（如 GPT‑3.5‑Turbo）上运行，使该方法在实际流水线中具有可行性。

结果与发现

Benchmark	Baseline (LLM‑in‑the‑loop)	PACEvolve	Improvement
LLM‑SR (search‑and‑replace)	78.4 % success	84.9 %	+6.5 pp
KernelBench (kernel optimization)	1.12× speed‑up	1.26× speed‑up	+12 %
Modded NanoGPT (tiny model training)	Record loss 0.041	0.037 (new record)	–9.8 %

Context Pollution 从平均 23 % 的劣化候选下降至 <5 %，得益于 HCM。
Mode Collapse 事件（>10 代未改进）从 31 % 降至 4 %，归功于 MBB。
自适应 CE 策略自动从早期的 70 % crossover 转为后期的 80 % backtrack，实现了“探索 → 利用”曲线，无需手动调参。

总体而言，PACEvolve 在长时间跨度（最高 200 代）上提供了更为一致的进展，而先前方法往往会出现平台期。

实际意义

自动化代码重构与优化：开发者可以将 PACEvolve 集成到 CI 流水线中，让 LLM 在保持 token 限制的前提下，迭代提升性能关键代码（例如 GPU kernel）的表现。
大规模提示工程：营销或客服团队可以使用该框架演化提示模板，逐步提升转化率或满意度指标，免去手动的反复试验。
并行设计探索：产品团队在 UI 布局、API 架构或硬件配置上可以并行运行多个代理，让 CE 策略自动呈现最佳的跨候选想法。
降低计算浪费：通过剪枝无关上下文并提前回溯，系统相比于朴素的进化循环可节省高达 30 % 的推理 token，降低云端成本。

简而言之，PACEvolve 将 LLM 从“富有创意但噪声大的”生成器转变为纪律严明、自我改进的协作者，能够在更长、更复杂的搜索任务中获得信任。

限制与未来工作

领域特定的适应度函数：该框架假设有可靠且快速的评估器。对于适应度评估成本高的任务（例如完整模型训练），其优势会减弱。
对超大种群的可扩展性：虽然 CE 控制器在 4–8 个并行代理时表现良好，但扩展到数十个代理可能需要更复杂的协调机制（例如层次聚类）。
超出基准的泛化能力：实验主要聚焦于代码相关任务；将 PACEvolve 应用于非代码领域（例如平面设计）可能需要定制的上下文摘要策略。
未来方向：作者计划（1）集成学习的代理模型以近似昂贵的适应度评估，（2）探索多目标扩展（例如准确率 + 能耗），以及（3）开源一个轻量级库，以便轻松集成到现有的 LLM API 中。

作者

Minghao Yan
Bo Peng
Benjamin Coleman
Ziqi Chen
Zhouhang Xie
Zhankui He
Noveen Sachdeva
Isabella Ye
Weili Wang
Chi Wang
Ed H. Chi
Wang‑Cheng Kang
Derek Zhiyuan Cheng
Beidou Wang

论文信息

arXiv ID: 2601.10657v1
分类: cs.NE, cs.LG
发布: 2026年1月15日
PDF: 下载 PDF

[Paper] PACEvolve：实现长视角进度感知的一致性演化

概述

关键贡献

方法论

分层上下文管理

基于动量的回溯

协同进化（CE）策略

训练循环

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理