新代理框架匹配人类设计的 AI 系统——并且部署时零推理成本

发布: 3天前 (2026年2月19日 GMT+8 06:00)

11 分钟阅读

Source: VentureBeat

企业环境下的自适应 AI 代理

基于当今模型构建的代理经常会因简单的更改而失效——比如新增库、工作流修改或 API 更新——随后需要人工工程师介入。这种脆弱性是大规模部署 AI 时最持久的挑战之一：我们需要能够在无需持续人工干预的情况下适应动态环境的代理。虽然当前模型功能强大，但它们仍基本是静态的。

挑战

脆弱的集成：细微的变化会导致故障。
高维护成本：需要持续的人为监督。
自我改进受限：现有框架无法可靠地在新条件下自行演进。

解决方案：群体进化代理 (GEA)

加州大学圣塔芭芭拉分校的研究人员提出了**群体进化代理 (Group‑Evolving Agents, GEA)，一个让AI 代理群体共同进化**的框架。关键特性包括：

功能	描述
共享经验	代理之间交换观察和经验教训，构建集体知识库。
创新复用	一个代理发现的成功策略会传播到整个群体。
自主改进	群体在无需外部监督的情况下持续优化其策略。

实验结果

领域：复杂的编码和软件工程任务。
性能：GEA 显著超越了现有的自我改进框架。
企业影响：系统自主进化的代理匹配或超越了人工专家精心打造的解决方案的表现。

欲了解更深入的内容，请参阅完整论文：Group‑Evolving Agents (GEA)，arXiv:2602.04837。

为什么这对企业重要

降低工程开销——减少手动修复和更新。
提升可靠性——代理能够自动适应库升级、API 变更和工作流微调。
可扩展的自我改进——随着代理群体的扩大，其整体能力提升，带来长期 ROI。

“孤狼”进化的局限性

大多数现有的 agentic AI systems 依赖于 工程师设计的固定架构。这些系统往往难以突破其初始设计所设定的能力边界。

为什么自我进化的代理人很重要

研究人员长期以来一直在寻找能够 自主修改自身代码和结构 的代理人，以克服这些限制。自我进化对于开放式环境至关重要，因为在此类环境中，代理人必须不断探索新方案。

当前方法的结构性缺陷

主流范式受到生物进化的启发，采用 以个体为中心、树状结构的过程：

选定一个“父代”代理人。
它产生后代，形成不同的进化分支。
每个分支相互独立地演化。

Classic self‑evolving agent structure (source: arXiv)

隔离的后果

知识孤岛： 一个分支中的代理人无法访问并行分支中代理人发现的数据、工具或工作流。
有价值发现的流失： 如果某条血统未被选入下一代，它所产生的任何新颖调试工具、测试工作流或其他突破性成果都会随之消失。

重新思考隐喻

作者认为 AI 代理人并非生物个体，因此它们的进化不必受生物隐喻的限制。

“AI 代理人并非生物个体。它们的进化为何必须受生物范式的约束？”

通过摆脱孤立的树状进化，转向协作的网络式方法，我们可以在所有代理人血统之间保留并传播有价值的创新。

Source: …

群体进化代理（GEA）的集体智能

GEA 通过将 一组代理 而非单个代理视为进化的基本单元，改变了传统范式。

GEA 工作原理

父组选择
- 从现有档案中抽取一组父代理。
- 通过对代理进行以下评分来平衡 稳定性 与 创新性：
  - 性能 – 完成任务的能力。
  - 新颖性 – 其能力与其他代理的区别程度。
共享的集体经验池
- 将父组的所有进化痕迹汇聚在一起，包括：
  - 代码修改。
  - 成功的任务解法。
  - 工具调用历史。
- 组内每个代理都可以访问该池，学习同伴的突破以及失误。
反思模块
- 由大型语言模型（LLM）驱动。
- 分析集体历史，发现全组范围的模式。
- 示例：一个代理发现了高效的调试工具，另一个代理完善了测试工作流。模块提取这两方面的洞见。
进化指令
- 基于 LLM 分析生成的高层指令，引导子组的创建。
- 下一代继承所有父代的 综合优势，而非单一血统。

Group‑Evolving Agent diagram

GEA trait‑sharing diagram (source: arXiv)

优势与局限

优势 – 对客观任务（例如编码）表现尤为出色，因为成功可以被精确衡量。
局限 – 在主观领域（例如创意生成）中，评估信号较弱。正如 Zhaotian Weng 与 Xin Eric Wang 所指出的：

“盲目共享输出和经验可能会引入低质量的经验，形成噪声。这表明在主观任务中需要更强的经验过滤机制。”

GEA 实战

研究人员在两个严格的基准上将 GEA 与最先进的自进化基线——Darwin Gödel Machine (DGM) 进行比较。结果显示，在不增加使用的代理数量的情况下，能力实现了 大幅跃升。

关键发现

基准	GEA 成功率	基线 (DGM)	相对提升
SWE‑bench Verified（真实 GitHub issue）	71.0 %	56.7 %	+24.5 %
Polyglot（多语言代码生成）	88.3 %	68.3 %	+20.0 %

Bug‑修复鲁棒性 – 当通过注入错误故意破坏代理时，GEA 平均只需 1.4 次迭代 即可修复，而基线需要 5 次迭代。
跨模型可迁移性 – 在一种 LLM（例如 Claude）中发现的创新，在将底层引擎切换到另一模型系列（例如 GPT‑5.1、GPT‑o3‑mini）时仍能保持收益。

GEA vs. Darwin‑Gödel Machine (DGM) – source: arXiv
图：GEA 与 DGM（来源：arXiv）

对企业研发的意义

方面	洞察
人类水平的设计	GEA 在 SWE‑bench 上的 71 % 成功率与顶尖的人类工程框架 OpenHands 相当。
超越助理工具	在 Polyglot 上，GEA（88.3 %）击败了流行的编码助理 Aider（52.0 %）。
成本效率	经过两阶段进化（代理进化 → 推理/部署）后，仅部署一个进化后的代理，保持推理成本与标准单代理设置相当。
知识整合	最佳 GEA 代理融合了 17 个独特祖先（占种群的 28 %），而基线仅为 9，形成了聚合全组最佳实践的 “超级员工”。
模型无关的收益	改进在不同模型系列间保持，团队可在不失去自定义优化的情况下切换供应商。
安全防护	建议的企业部署包括不可进化的防护措施：沙箱执行、策略约束和验证层。

所需的架构附加组件

要为现有代理栈加入 GEA，需要添加三个组件：

经验归档 – 存储进化轨迹和代理交互。
反思模块 – 分析群体层面的模式（通常由强大的基础模型驱动）。
更新模块 – 使代理能够根据反思洞察修改自身代码。

未来方向

混合进化管线 – 小模型在早期进行探索，收集多样化经验；随后大模型利用这些汇总的知识引导进化。
让高级代理大众化 – 通过将经验收集与重量级推理分离，即使资源受限的团队也能受益于自进化代理。

官方代码即将发布，但团队今天就可以通过将上述三个模块集成到现有代理框架中，开始尝试 GEA 概念。