[Paper] 主体策略优化 via 指令-策略协同进化

发布: (2025年12月2日 GMT+8 01:56)
7 min read
原文: arXiv

Source: arXiv - 2512.01945v1

概述

本文提出 INSPO(指令‑策略共进化),一种新框架,使大型语言模型(LLM)代理在强化学习过程中能够持续优化 他们被告知要做的事(指令)和 他们的行为方式(策略)。通过将指令视为动态、可学习的组件而非静态提示,INSPO 实现了更高效的多轮推理和工具使用,在检索增强和复杂推理基准上取得了显著的性能提升。

关键贡献

  • 共进化循环: 引入一个闭环系统,使指令和策略共同优化,彼此相互促进改进。
  • 指令种群管理: 维护一个多样化的候选指令池,自动将强化学习奖励归因到每条指令并剔除表现不佳的指令。
  • 策略内省优化器: 利用基于 LLM 的优化器分析回放缓冲经验,生成并验证更高质量的指令。
  • 实证验证: 在多轮检索和推理任务上相较于强大的静态指令基线取得了显著提升,且计算开销仅略有增加。
  • 可解释性提升: 演化出的指令常揭示新颖的提示策略,引导代理走向更具策略性的推理路径。

方法论

  1. 初始设置 – 以基础 LLM 和少量种子指令(例如 “逐步回答问题”)开始。
  2. 指令种群 – 保持一个动态的指令候选池。每个回合,从池中抽样一条指令并与当前策略配对,以与环境交互(如检索增强的问答系统)。
  3. 奖励归因 – 回合获得的强化学习奖励不仅反向传播到策略,还记录在抽样的指令上。
  4. 剔除与生成 – 定期移除得分最低的指令。专用的 LLM “内省”模块审阅回放缓冲,识别失败模式,并合成可能更好引导策略的新指令候选。
  5. 验证 – 在验证集上短暂测试新指令;只有提升奖励信号的指令才被加入池中。
  6. 策略更新 – 使用标准强化学习算法(如 PPO)基于收集的轨迹更新策略,轨迹现在受不断演化的指令集合条件化。

整个过程循环进行,使指令集合随策略能力提升而适应,反之亦然。

结果与发现

任务基线(静态指令)INSPO相对提升 ↑
多轮检索问答71.3 % EM78.9 % EM+10.6 %
复杂推理(CoT)64.5 % Acc72.1 % Acc+11.8 %
工具集成推理58.2 % Success65.4 % Success+12.4 %
  • 指令多样性: 演化后的指令池收敛到诸如 “先定位最相关的来源,然后在回答前验证每个论断” 的提示,这些在种子集合中并不存在。
  • 计算开销: 增加指令生成步骤使墙时钟时间比静态指令的强化学习循环多约 15 %,对许多实践者而言,考虑到性能提升,这一权衡是可以接受的。
  • 稳定性: 共进化过程在不同随机种子下保持稳定,最终得分的方差相比静态基线下降约 30 %。

实际意义

  • 更佳的提示工程: 开发者可以将手工反复试验提示的繁琐工作交给自动化的共进化循环,从而节省时间并发现非显而易见的提示策略。
  • 自适应代理: 在环境不断演变的生产系统(如 API 或知识库变化)中,INSPO 能持续适配其策略和“操作手册”,无需人工重新提示即可保持性能。
  • 工具使用集成: 对需要调用外部服务(搜索引擎、计算器、代码解释器)的代理而言,动态细化的指令可引导更高效的工具选择与序列化,降低 API 成本和延迟。
  • 可迁移性: 在一个任务上学习到的指令池可作为种子迁移到相关任务,加速新领域的学习。
  • 调试辅助: 演化出的指令作为可解释的产物,说明代理为何走特定推理路径,有助于合规性和安全审计。

局限性与未来工作

  • 对 LLM 的依赖: 内省优化器本身是 LLM,生成指令的质量受底层模型能力限制,并可能继承其偏见。
  • 大规模种群的可扩展性: 虽然适度的指令种群表现良好,但扩展到数百个候选会增加内存和计算需求,需要更智能的抽样策略。
  • 领域特异性: 实验聚焦于检索和推理;将 INSPO 应用于机器人或对话系统等领域可能需要任务特定的奖励塑形。
  • 未来方向: 作者建议探索元学习方法以跨任务转移指令演化、引入人为回路验证以保障安全关键应用,并通过轻量模型降低对 LLM 优化器的依赖。

作者

  • Han Zhou
  • Xingchen Wan
  • Ivan Vulić
  • Anna Korhonen

论文信息

  • arXiv ID: 2512.01945v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 发表时间: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »