[Paper] 递归代理优化
发布: (2026年5月8日 GMT+8 01:49)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.06639v1
概述
论文 Recursive Agent Optimization (RAO) 提出了一种新的强化学习(RL)框架,使得 AI 系统能够 调用自身的副本 来解决子问题,类似于程序员编写递归函数。通过训练代理了解 何时 拆分任务以及 如何 在父代理和子代理之间传递信息,RAO 使模型能够处理超出其原生上下文窗口的输入,并且能够应对远比训练期间见过的更复杂的问题。
关键贡献
- 递归代理架构 – 引入能够在推理期间动态生成相同子代理的代理,实现自然的分而治之策略。
- RAO 训练算法 – 一种强化学习目标,教会代理委派(何时创建子代理)和通信(传递何种状态)。
- 上下文窗口扩展 – 证明递归推理可以在不改变模型结构的情况下处理超出模型固定上下文长度的序列。
- 训练效率提升 – 表明递归代理收敛更快,所需环境步骤少于单体基线。
- 对更难任务的泛化 – 实证表明在适度规模问题上训练的代理,在启用递归后能够解决显著更大或更深的实例。
- 墙钟时间加速 – 通过在多个计算节点上并行子任务,尽管生成代理有额外开销,但整体求解时间仍可缩短。
方法论
- Base Agent – 从一个标准的 transformer‑style 策略/价值网络开始,该网络在固定大小的上下文上运行。
- Recursive Call Mechanism – 在 rollout 过程中,代理会评估一个 delegation score。如果该分数超过学习得到的阈值,它会生成一个子代理,并赋予一个 sub‑goal(例如,输入的一个切片或子问题的定义)。
- State Transfer – 父代理将其当前状态的简洁表示(attention keys/values、隐藏向量,或学习得到的摘要)打包并传递给子代理。子代理运行自己的推理循环,可能进一步生成后代。
- Reward Signal – 环境为整体任务返回一个标量奖励。RAO 使用策略梯度方法将该奖励通过整个递归树反向传播,给委托决策和子任务解答分配信用。
- Curriculum & Curriculum‑Free Training – 作者在较小的问题规模上进行训练,同时递归机制已经就绪,使得策略能够发现更深的递归在更大的未见实例上能够获得更高的奖励。
所有这些都被包装在标准的强化学习循环中(例如 PPO 或 A2C),但关键创新在于 learned recursion policy,它决定 何时 以及 如何 将问题拆解。
结果与发现
| 任务 | 基线(单代理) | RAO(递归) | 上下文长度(标记) | 加速比 |
|---|---|---|---|---|
| 长序列语言建模(10k 标记) | 失败(上下文溢出) | 通过 3 层递归解决 | 2k(模型)→ 10k(有效) | ~1.8× |
| 迷宫导航(网格大小 20×20) | 62% 成功,经过 100 万步 | 94% 成功,经过 40 万步 | — | 2.5× |
| 符号代数(表达式深度 8) | 48% 准确率 | 87% 准确率 | — | — |
| 多轮对话规划(10 轮) | 71% 成功 | 85% 成功 | — | 1.3×(并行化) |
- 训练效率:递归代理以 2–3 倍更快的速度达到目标性能(环境交互次数更少)。
- 泛化能力:在深度 4 问题上训练的代理凭借学习到的递归策略,能够在无需额外微调的情况下成功解决深度 8 的问题。
- 可扩展性:通过将子任务委派给独立的计算节点,尽管前向传播总次数增加,但实际墙钟时间仍下降。
实际意义
- 超越固定上下文窗口:大型语言模型(LLMs)现在可以用于超长文档(法律合同、代码库),无需重新设计架构——只需将模型包装在递归推理包装器中即可。
- 模块化 AI 流水线:开发者可以构建 自委派 服务,单个微服务为子任务(例如分块摘要、层次化规划)生成子工作者。
- 资源高效扩展:与其将单体模型扩展到数十亿参数,团队可以保持中等规模模型,通过并行递归实现相当的性能,从而节省 GPU 内存和成本。
- 对任务难度的鲁棒性:在小规模基准(如短代码生成)上训练的系统,部署后能够自动处理更大、更复杂的输入,降低持续再训练的需求。
- 简化 API 设计:从开发者视角看,递归逻辑可以作为单一的 “solve” 调用对外暴露;底层框架负责生成子任务、状态传递以及结果聚合。
局限性与未来工作
- 状态转移的开销:打包和解包父级的隐藏状态会增加延迟;优化这种表示方式仍是一个未解决的问题。
- 信用分配的复杂性:长递归树会使梯度估计变得嘈杂,尤其是在涉及多层委托时。
- 硬件协同:有效的并行加速假设计算节点之间的低延迟通信;在异构或边缘设备上,这可能成为瓶颈。
- 任务适用性:并非所有问题都能干净地分解;缺乏自然层次结构的任务可能收益有限。
- 未来方向:作者建议探索 自适应深度控制(让代理在运行时决定最佳递归深度)、整合 记忆增强 的状态传递,以及将 RAO 应用于超越自递归的多代理协作(例如,异构的专科代理)。
作者
- Apurva Gandhi
- Satyaki Chakraborty
- Xiangjun Wang
- Aviral Kumar
- Graham Neubig
论文信息
- arXiv ID: 2605.06639v1
- 分类: cs.LG, cs.AI, cs.CL, cs.MA
- 发表时间: 2026年5月7日
- PDF: 下载 PDF