[Paper] TodoEvolve:学习构建智能体规划系统
发布: (2026年2月8日 GMT+8 14:37)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.07839v1
Overview
本文介绍了 TodoEvolve,一种元规划框架,能够自动设计、调优并进化自主代理的内部规划架构。通过将规划器本身视为可学习的组件,TodoEvolve 超越了静态、手工构建的规划模块,能够根据每个任务及其底层模型的具体情况调整规划器的结构,从而在一系列长时程问题上显著提升性能。
关键贡献
- PlanFactory:一个统一的、模块化的代码库,抽象了规划器的“形状”(拓扑、初始化、适应、导航),并让研究者能够在非常不同的规划范式之间混合搭配组件。
- 阻抗引导偏好优化 (IGPO):一种多目标强化学习风格的训练目标,能够同时优化 (1) 任务性能,(2) 生成的规划器的稳定性,和 (3) 令牌效率(即低 API 成本)。
- Todo‑14B:一个拥有 140 亿参数的语言模型,使用 IGPO 进行训练,以按需输出完整的规划系统(代码 + 超参数)。
- 实证验证:在五个多样化的代理基准(例如网页导航、代码生成、具身控制)上的实验表明,TodoEvolve 在使用更少令牌且运行时间相当的情况下,优于手工设计的规划器。
- 开放式设计空间:该方法适用于不同的主干模型(如 GPT‑3.5、Claude),并且可以在无需重新工程整个系统的情况下扩展到新的规划原语。
方法论
- 定义设计空间 – PlanFactory 枚举所有可能的规划器组件(基于图的搜索、层次分解、记忆缓冲区等),并提供统一的 API。
- 收集训练数据 – 作者生成大量的“规划轨迹”:对每个任务采样众多规划器配置,运行它们,并记录得到的性能、稳定性指标以及 token 使用情况。
- 使用 IGPO 训练 Todo‑14B – 模型接收任务描述,并通过强化学习循环学习输出能够最大化三项奖励加权和的规划器配置:
- 性能:任务成功率 / 奖励。
- 稳定性:运行间方差低,避免崩溃或死胡同。
- Token 效率:惩罚需要大量 LLM 调用的规划器。
IGPO 中的“阻抗”项衡量候选规划器偏离理想折衷曲面的程度,引导优化器朝平衡解前进。
- 动态修订 – 在推理时,TodoEvolve 可以即时重新评估生成的规划器,并在观察到阻抗上升时提出增量修订(例如添加记忆模块),从而在代理运行期间实现规划器的演化。
结果与发现
| 基准测试 | 基线规划器(手工构建) | TodoEvolve(最佳) | 令牌节省 | 运行时 Δ |
|---|---|---|---|---|
| WebNav(多页面浏览) | 71.2 % 成功率 | 78.9 % | ~23 % | +5 % |
| CodeAssist(复杂代码生成) | 64.5 % | 71.3 % | ~19 % | +3 % |
| Embodied‑Room(模拟机器人) | 58.0 % | 66.4 % | ~27 % | +7 % |
| 多步问答 | 73.1 % | 80.2 % | ~21 % | +4 % |
| 策略游戏(回合制) | 69.8 % | 77.5 % | ~22 % | +6 % |
- 在所有任务中,TodoEvolve 始终以 5–9 个百分点的优势超越最强的手工工程规划器。
- IGPO 训练的模型生成的规划器 更稳定(在不同随机种子下成功率方差更低)。
- 令牌使用量大约下降 20 %,这意味着基于 LLM 的代理的 API 成本降低。
- 额外的运行时开销很小(个位数百分比),使该方法在生产系统中具有实用性。
Practical Implications
- 即插即用的规划器生成 – 开发者可以将 TodoEvolve 作为服务调用:提供任务描述,获取可直接运行的规划模块,并将其嵌入任何现有的代理流水线。
- 成本效益的扩展 – 由于生成的规划器在 token 使用上高效,基于云的代理(例如 ChatGPT 插件、自治助理)可以在相同预算内处理更多请求。
- 快速原型 – 团队无需手动调节搜索深度、内存大小或层次分解,只需重新提示 TodoEvolve 即可迭代,从而大幅缩短新领域(如金融、医疗)的研发周期。
- 跨模型可移植性 – 设计空间抽象了底层大模型,使同一规划器可在 GPT‑4、Claude 或开源替代方案上复用,简化了不同供应商之间的迁移。
- 自我优化的代理 – 在长期部署(如自治无人机)中,代理可以监测自身阻抗并在任务进行中请求规划器修订,从而实现更具弹性的行为,无需人工干预。
限制与未来工作
- 设计‑空间覆盖 – PlanFactory 虽然已相当广泛,但仍反映了作者对已知规划范式的偏好;可能缺少异构或特定领域的结构。
- 训练成本 – 构建高质量轨迹数据集并使用 IGPO 训练 14B 模型需要大量计算资源,这可能成为小实验室的障碍。
- 稳定性‑与‑探索的权衡 – 阻抗项可能对新颖的规划器配置惩罚过重,进而限制对全新架构的发现。
- 真实世界部署 – 所有基准均为模拟;在真正嘈杂、对安全关键的环境(例如野外机器人)中进行测试仍是未完成的步骤。
未来的研究方向包括通过社区贡献模块扩展 PlanFactory,利用元学习降低数据生成负担,以及将安全约束直接整合到 IGPO 目标中。
作者
- Jiaxi Liu
- Yanzuo Jiang
- Guibin Zhang
- Zihan Zhang
- Heng Chang
- Zhenfei Yin
- Qibing Ren
- Junchi Yan
论文信息
- arXiv ID: 2602.07839v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年2月8日
- PDF: Download PDF