[Paper] 从反思经验中内化能动性

发布: (2026年3月18日 GMT+8 01:50)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.16843v1

概览

大型语言模型(LLMs)正日益被用作自主代理,需要在与复杂环境交互时进行规划、行动并从错误中恢复(例如,编码助手、游戏机器人)。新论文提出了 LEAFE——一种学习框架,使代理能够在交互过程中反思所获得的丰富反馈,并将其转化为具体的恢复策略,而不是仅仅追求最终的成功信号。

Source:

关键贡献

  • 基于反馈的自主性: 提出一种方法,使智能体能够内化环境反馈(错误信息、部分得分、提示),并利用这些反馈改进恢复行为。
  • 反思经验循环: 在探索过程中,智能体 总结 反馈,回溯 到更早的决策点,并在 总结 的指导下 重新探索 替代行动。
  • 基于反思的监督微调: 将纠正后的轨迹通过监督微调蒸馏进大语言模型,使模型在推理时无需额外搜索即可实现恢复。
  • 在长时序任务上的实证提升: 在交互式编码基准及其他智能体任务中,LEAFE 将 Pass@1 和 Pass@k(最高至 Pass@128)提升了最高 14 %,相较于 GRPO、Early Experience 等强大的结果驱动基线。
  • 预算感知的改进: 在固定交互预算下展示出一致的收益,表明更智能的恢复策略能够抵消单纯增加步骤数的效果。

Methodology

  1. Exploration Phase – 代理与环境交互(例如,编写代码、执行代码),并收集 丰富的反馈(错误追踪、测试失败、部分得分)。
  2. Reflection Phase – 轻量级摘要器将这些反馈压缩成一段简短的 “experience note”,突出 出错的地方下一步可以尝试的方案
  3. Backtrack & Re‑explore – 代理回溯到先前的决策点(例如,代码的最后一行),并利用 experience note 生成备选操作。这会产生一个 已纠正的轨迹,成功解决之前的失败。
  4. Distillation – 将所有已纠正的轨迹汇集成数据集。随后对基础 LLM 进行标准监督学习的微调(输入 = 原始状态,目标 = 已纠正的操作),使模型能够自行预判并修正错误。
  5. Inference – 经过微调的模型现在可以在不显式回溯循环的情况下恢复错误,且仍在相同的交互预算内。

该流水线刻意保持简洁:它复用现有的 LLM 能力(摘要、生成)和标准的微调流程,便于嵌入现有的代理系统中。

结果与发现

BenchmarkMetricBaseline (GRPO)LEAFEΔ
Interactive coding (Pass@1)Success rate42 %48 %+6 %
Interactive coding (Pass@128)Success rate68 %82 %+14 %
Agentic navigation tasksCompletion score0.710.78+0.07
  • 更高的 Pass@k: LEAFE 在各 k 值下始终优于基于结果的方法,表明其解的多样性和鲁棒性更佳。
  • 更好的样本效率: 在相同的交互步数下,LEAFE 达到更高的成功率,证实反思性恢复比单纯增加动作更省预算。
  • 泛化能力: 同一框架既适用于代码生成(反馈为编译/运行时错误),也适用于导航类任务(反馈为距离或碰撞信号),显示出广泛的适用性。

实际影响

  • 开发者工具: 代码助手现在可以实时建议修复,将编译错误转化为可操作的建议,无需单独的“调试”循环。
  • 自主机器人: 游戏 AI、机器人或网页自动化代理可以利用错误信息或部分奖励进行自我纠正,减少对手工奖励塑形的需求。
  • 成本节约: 由于 LEAFE 在固定交互预算下提升了性能,按 API 调用计费的服务(例如 OpenAI、Anthropic)可以在相同费用下提供更高质量的结果。
  • 简化流水线: 团队只需添加反思‑摘要步骤和定期微调作业即可采用 LEAFE——无需强化学习基础设施。
  • 安全性与可靠性: 通过明确在失败案例上进行训练,代理重复灾难性错误的可能性降低,这是迈向更可信的 LLM 驱动自动化的一步。

限制与未来工作

  • 反思质量取决于摘要器: 摘要不佳的反馈可能误导回溯,限制收益。
  • 回溯深度是启发式的: 当前决定回溯多远是基于规则的选择;学习最优回溯策略可能提升效果。
  • 对大规模状态空间的可扩展性: 目前的实验聚焦于历史相对紧凑的任务;扩展到长时间运行的仿真可能需要更高效的内存管理。
  • 未来方向 包括为反思体验自动生成课程、整合学习到的回溯策略,以及在真实机器人或多智能体协同场景中测试 LEAFE。

作者

  • Rui Ge
  • Yichao Fu
  • Yuyang Qian
  • Junda Su
  • Yiming Zhao
  • Peng Zhao
  • Hao Zhang

论文信息

  • arXiv ID: 2603.16843v1
  • Categories: cs.AI
  • Published: 2026年3月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »