[Paper] StraTA：通过战略轨迹抽象激励代理式强化学习

发布: 3天前 (2026年5月8日 GMT+8 01:51)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06642v1

概述

本文介绍了 Strategic Trajectory Abstraction (StraTA)，一个轻量级框架，在大型语言模型（LLM）代理开始行动之前为其提供“行动计划”。通过从初始状态抽样一个紧凑的高层策略，并让后续的每一次决策都基于该计划，StraTA 解决了强化学习中的两个经典难点——探索和信用分配，尤其适用于长时程、交互式任务，如虚拟家居助理、电子商务机器人和科学推理代理。

关键贡献

轨迹级策略原语 – 一个简洁的、抽样的计划，引导整个情节，使纯粹反应式的 LLM 成为目标导向的代理。
联合层次训练 – 将策略生成和动作执行结合在 GRPO 风格的 rollout 中，使梯度能够在两个层次之间传播。
多样化策略 rollout 与自我评判 – 鼓励模型探索替代计划并批判自身决策，提高鲁棒性。
显著的实证提升 – 在 ALFWorld 上实现 93.1% 成功率，WebShop 上 84.2%，SciWorld 上整体得分 63.5%，超越最先进的基线甚至闭源竞争者。
样本效率提升 – 以更少的环境交互达到可比的性能，这对于数据收集成本高昂的真实世界部署至关重要。

方法论

Initial State Encoding – 当一个情节开始时，LLM 接收当前环境的描述（例如，房间布局、购物车状态或科学问题）。
Strategy Sampling – 基于此编码，模型抽取一个简短的“strategy token sequence”（例如，“pick up key → unlock door → fetch book”）。该序列刻意保持紧凑（通常 3–5 步），以便易于处理。
Conditioned Action Generation – 每个后续动作的生成 conditioned on both 当前观察 and 抽取的策略。这形成了层次化策略：高层规划器（strategy）和低层执行器（actions）。
Hierarchical GRPO Rollout – 训练循环对应 GRadient‑based Policy Optimization (GRPO) 算法，但在两个层级上运行：
- Strategy level: 模型根据整体计划的成功程度收到奖励信号。
- Action level: 标准 RL 奖励（例如，任务完成、步骤惩罚）会反向传播，以改进执行器。
Diverse Rollouts – 为防止模型对单一计划过拟合，每个情节会抽取多个策略，并使用表现最佳的回滚进行梯度更新。
Critical Self‑Judgment – 每次回滚后，模型评估自己的决策（例如，“Did this sub‑goal help achieve the overall goal?”），并将该反馈作为辅助损失加入，以提升规划和执行的精准度。

结果与发现

基准	成功率 / 分数	基线（例如，标准 LLM‑RL）	提升
ALFWorld	93.1 %	~78 %	+15 pp
WebShop	84.2 %	~70 %	+14 pp
SciWorld	63.5 % (overall)	~55 % (open‑source) / <63 % (closed‑source)	+8 pp vs. open, beats closed‑source

样本效率：StraTA 在大约 40 % 更少的环境步数 下即可达到其最终性能的 80 % ，相较于最强基线。
对干扰因素的鲁棒性：自我判断模块在环境出现意外障碍（例如缺少对象）时，能够降低灾难性失败。
泛化能力：同一 StraTA 流程，仅进行轻微的超参数调整，即可在三个截然不同的领域（家庭模拟、网页导航、科学推理）中工作，表明该方法并非特定于某一领域。

Practical Implications

面向开发者的规划层: StraTA 可以通过少量 API 调用包装在任何基于 LLM 的代理（例如 GPT‑4、Claude）之上，以生成策略令牌序列，从而轻松集成到现有流水线中。
降低 API 成本: 由于模型在收敛前探索的低层次动作更少，开发者在对专有数据进行训练或微调代理时可以节省令牌使用量和计算资源。
提升用户体验: 遵循可见的高级计划的代理能够解释其推理过程（“我将把商品加入购物车，然后进行结算”），这对透明性和调试非常有价值。
安全与合规: 自我判断步骤充当内部的合理性检查，可能在执行前捕获政策违规（例如尝试禁止的操作）。
跨领域部署: StraTA 的层次抽象非常适合任何长期任务——比如自主故障排除机器人、多步骤代码生成助手或虚拟实验室实验规划器。

限制与未来工作

策略长度权衡：非常短的策略可能不足以应对极其复杂的任务，而更长的策略会增加采样开销，并可能削弱“紧凑性”优势。
对初始状态质量的依赖：如果初始环境描述噪声较大或不完整，采样得到的策略可能会误导，导致连锁错误。
向真实世界交互的可扩展性：实验仅限于模拟基准；将 StraTA 转移到实时网络服务或实体机器人时，需要处理延迟、部分可观测性以及安全约束。
未来方向：作者建议探索自适应策略粒度（动态长度）、整合外部知识库以生成更丰富的计划，并在多智能体协同场景中测试 StraTA。

StraTA 表明，适度的“先规划”微调可以显著提升 LLM 代理的长期推理能力，为需要可靠、高采样效率且可解释的 AI 助手的开发者提供了实用路径。

作者

Xiangyuan Xue
Yifan Zhou
Zidong Wang
Shengji Tang
Philip Torr
Wanli Ouyang
Lei Bai
Zhenfei Yin

论文信息

arXiv ID: 2605.06642v1
Categories: cs.CL, cs.AI
Published: 2026年5月7日
PDF: 下载 PDF

[Paper] StraTA：通过战略轨迹抽象激励代理式强化学习

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

【论文】快速字节潜在Transformer

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张