[Paper] TodoEvolve：学习构建智能体规划系统

发布: 3天前 (2026年2月8日 GMT+8 14:37)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.07839v1

Overview

本文介绍了 TodoEvolve，一种元规划框架，能够自动设计、调优并进化自主代理的内部规划架构。通过将规划器本身视为可学习的组件，TodoEvolve 超越了静态、手工构建的规划模块，能够根据每个任务及其底层模型的具体情况调整规划器的结构，从而在一系列长时程问题上显著提升性能。

PlanFactory：一个统一的、模块化的代码库，抽象了规划器的“形状”（拓扑、初始化、适应、导航），并让研究者能够在非常不同的规划范式之间混合搭配组件。
阻抗引导偏好优化 (IGPO)：一种多目标强化学习风格的训练目标，能够同时优化 (1) 任务性能，(2) 生成的规划器的稳定性，和 (3) 令牌效率（即低 API 成本）。
Todo‑14B：一个拥有 140 亿参数的语言模型，使用 IGPO 进行训练，以按需输出完整的规划系统（代码 + 超参数）。
实证验证：在五个多样化的代理基准（例如网页导航、代码生成、具身控制）上的实验表明，TodoEvolve 在使用更少令牌且运行时间相当的情况下，优于手工设计的规划器。
开放式设计空间：该方法适用于不同的主干模型（如 GPT‑3.5、Claude），并且可以在无需重新工程整个系统的情况下扩展到新的规划原语。

定义设计空间 – PlanFactory 枚举所有可能的规划器组件（基于图的搜索、层次分解、记忆缓冲区等），并提供统一的 API。
收集训练数据 – 作者生成大量的“规划轨迹”：对每个任务采样众多规划器配置，运行它们，并记录得到的性能、稳定性指标以及 token 使用情况。
使用 IGPO 训练 Todo‑14B – 模型接收任务描述，并通过强化学习循环学习输出能够最大化三项奖励加权和的规划器配置：
- 性能：任务成功率 / 奖励。
- 稳定性：运行间方差低，避免崩溃或死胡同。
- Token 效率：惩罚需要大量 LLM 调用的规划器。
  IGPO 中的“阻抗”项衡量候选规划器偏离理想折衷曲面的程度，引导优化器朝平衡解前进。
动态修订 – 在推理时，TodoEvolve 可以即时重新评估生成的规划器，并在观察到阻抗上升时提出增量修订（例如添加记忆模块），从而在代理运行期间实现规划器的演化。

基准测试	基线规划器（手工构建）	TodoEvolve（最佳）	令牌节省	运行时 Δ
WebNav（多页面浏览）	71.2 % 成功率	78.9 %	~23 %	+5 %
CodeAssist（复杂代码生成）	64.5 %	71.3 %	~19 %	+3 %
Embodied‑Room（模拟机器人）	58.0 %	66.4 %	~27 %	+7 %
多步问答	73.1 %	80.2 %	~21 %	+4 %
策略游戏（回合制）	69.8 %	77.5 %	~22 %	+6 %

即插即用的规划器生成 – 开发者可以将 TodoEvolve 作为服务调用：提供任务描述，获取可直接运行的规划模块，并将其嵌入任何现有的代理流水线。
成本效益的扩展 – 由于生成的规划器在 token 使用上高效，基于云的代理（例如 ChatGPT 插件、自治助理）可以在相同预算内处理更多请求。
快速原型 – 团队无需手动调节搜索深度、内存大小或层次分解，只需重新提示 TodoEvolve 即可迭代，从而大幅缩短新领域（如金融、医疗）的研发周期。
跨模型可移植性 – 设计空间抽象了底层大模型，使同一规划器可在 GPT‑4、Claude 或开源替代方案上复用，简化了不同供应商之间的迁移。
自我优化的代理 – 在长期部署（如自治无人机）中，代理可以监测自身阻抗并在任务进行中请求规划器修订，从而实现更具弹性的行为，无需人工干预。

未来的研究方向包括通过社区贡献模块扩展 PlanFactory，利用元学习降低数据生成负担，以及将安全约束直接整合到 IGPO 目标中。