[Paper] 从反思经验中内化能动性

发布: 3天前 (2026年3月18日 GMT+8 01:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.16843v1

概览

大型语言模型（LLMs）正日益被用作自主代理，需要在与复杂环境交互时进行规划、行动并从错误中恢复（例如，编码助手、游戏机器人）。新论文提出了 LEAFE——一种学习框架，使代理能够在交互过程中反思所获得的丰富反馈，并将其转化为具体的恢复策略，而不是仅仅追求最终的成功信号。

Source: …

基于反馈的自主性： 提出一种方法，使智能体能够内化环境反馈（错误信息、部分得分、提示），并利用这些反馈改进恢复行为。
反思经验循环： 在探索过程中，智能体总结反馈，回溯到更早的决策点，并在总结的指导下 重新探索 替代行动。
基于反思的监督微调： 将纠正后的轨迹通过监督微调蒸馏进大语言模型，使模型在推理时无需额外搜索即可实现恢复。
在长时序任务上的实证提升： 在交互式编码基准及其他智能体任务中，LEAFE 将 Pass@1 和 Pass@k（最高至 Pass@128）提升了最高 14 %，相较于 GRPO、Early Experience 等强大的结果驱动基线。
预算感知的改进： 在固定交互预算下展示出一致的收益，表明更智能的恢复策略能够抵消单纯增加步骤数的效果。

Exploration Phase – 代理与环境交互（例如，编写代码、执行代码），并收集 丰富的反馈（错误追踪、测试失败、部分得分）。
Reflection Phase – 轻量级摘要器将这些反馈压缩成一段简短的 “experience note”，突出 出错的地方 和 下一步可以尝试的方案。
Backtrack & Re‑explore – 代理回溯到先前的决策点（例如，代码的最后一行），并利用 experience note 生成备选操作。这会产生一个 已纠正的轨迹，成功解决之前的失败。
Distillation – 将所有已纠正的轨迹汇集成数据集。随后对基础 LLM 进行标准监督学习的微调（输入 = 原始状态，目标 = 已纠正的操作），使模型能够自行预判并修正错误。
Inference – 经过微调的模型现在可以在不显式回溯循环的情况下恢复错误，且仍在相同的交互预算内。

该流水线刻意保持简洁：它复用现有的 LLM 能力（摘要、生成）和标准的微调流程，便于嵌入现有的代理系统中。

Benchmark	Metric	Baseline (GRPO)	LEAFE	Δ
Interactive coding (Pass@1)	Success rate	42 %	48 %	+6 %
Interactive coding (Pass@128)	Success rate	68 %	82 %	+14 %
Agentic navigation tasks	Completion score	0.71	0.78	+0.07

开发者工具: 代码助手现在可以实时建议修复，将编译错误转化为可操作的建议，无需单独的“调试”循环。
自主机器人: 游戏 AI、机器人或网页自动化代理可以利用错误信息或部分奖励进行自我纠正，减少对手工奖励塑形的需求。
成本节约: 由于 LEAFE 在固定交互预算下提升了性能，按 API 调用计费的服务（例如 OpenAI、Anthropic）可以在相同费用下提供更高质量的结果。
简化流水线: 团队只需添加反思‑摘要步骤和定期微调作业即可采用 LEAFE——无需强化学习基础设施。
安全性与可靠性: 通过明确在失败案例上进行训练，代理重复灾难性错误的可能性降低，这是迈向更可信的 LLM 驱动自动化的一步。