[Paper] SELAUR：自我进化 LLM 代理通过不确定性感知奖励

发布: 3天前 (2026年2月25日 GMT+8 02:04)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.21158v1

概述

论文 SELAUR: Self‑Evolving LLM Agent via Uncertainty‑aware Rewards 提出了一种训练大型语言模型（LLMs）作为自主代理的新方法。通过将模型自身的不确定性融入奖励信号，SELAUR 使代理能够更智能地探索并更快学习，从而在诸如交互式家庭模拟（ALFWorld）和基于网页的购物（WebShop）等复杂决策任务上实现更高的成功率。

关键贡献

不确定性驱动的奖励设计 – 将熵、最小置信度和边际度量合并为单一的 token 级别不确定性分数，直接影响步级和轨迹级奖励。
考虑失败的奖励重塑 – 在情节失败时注入不确定性信号，将“错误”转化为有用的学习线索，而非纯粹的惩罚。
密集、置信度对齐的监督 – 提供比稀疏二元奖励更丰富的反馈，改善长动作序列中的信用分配。
在两个多样化基准上的实证提升 – SELAUR 在 ALFWorld（具身任务）和 WebShop（网页导航）上始终优于强大的 RL‑from‑human‑feedback (RLHF) 和 PPO 基线。
全面的消融实验 – 展示每个不确定性组件的单独影响以及考虑失败的重塑带来的鲁棒性提升。

方法论

Token‑level 不确定性估计
- 对每个生成的 token，计算三种经典的不确定性度量：
  - Entropy – 捕捉整体分布的扩散程度。
  - Least confidence – 1 − 最大概率，突出最不确定的预测。
  - Margin – 前两大概率之差，指示模型与备选选择之间的“接近度”。
- 将这些分数归一化后相加，得到每个 token 的单一不确定性值，然后在构成一个动作步骤的 token 上进行聚合（例如取平均）。
不确定性感知的奖励塑形
- Step‑level 奖励：基础任务奖励（例如成功 +1，否者 0）乘以步骤不确定性的倒数，奖励自信且正确的动作，惩罚过度自信的错误。
- Trajectory‑level 奖励：当一次 episode 以失败结束时，使用整个轨迹上的累计不确定性来重新分配奖励，鼓励智能体在未来尝试时重新访问高不确定性区域。
RL 循环
- 使用近端策略优化（Proximal Policy Optimization, PPO）对智能体进行微调，策略梯度基于不确定性感知的奖励计算。
- 同时更新 LLM 参数，并加入一个价值头（value head），该价值头同样接收加入不确定性的信号，以稳定学习。
自我进化
- 随着训练进行，模型在熟悉的子任务上不确定性自然下降，探索行为会转向环境中剩余的“未知”部分——这正是“自我进化”行为的体现。

结果与发现

Benchmark	Baseline (PPO) Success	SELAUR Success	Relative Gain
ALFWorld (Household tasks)	42.3 %	55.8 %	+13.5 pp
WebShop (Web navigation)	31.7 %	44.2 %	+12.5 pp

探索效率：得益于不确定性引导的探索，SELAUR 在训练步数上比基线快 30‑40 % 达到可比的性能。
稳定性：不同随机种子之间的方差明显下降，表明不确定性信号降低了灾难性策略波动。
消融分析：去除任意一个不确定性组件都会削弱性能（熵 ≈ ‑3 pp，最小置信度 ≈ ‑2 pp，margin ≈ ‑1 pp）。其中，故障感知的重新塑形贡献最大（+5 pp）。

Practical Implications

更好的自主助理 – 开发面向聊天的机器人，需要规划多轮操作（例如，日程安排、故障排除）的开发者可以采用 SELAUR 的奖励方案，使代理对自身置信度有更强的自觉性，从而减少死胡同。
降低对大量人工反馈的需求 – 通过从模型自身的不确定性中提取学习信号，团队可以减少昂贵的 RLHF 数据收集，尤其是在标注轨迹稀缺的细分领域。
提升高风险部署的安全性 – 对不确定性的奖励自然会惩罚过度自信的错误，这对在受监管环境（金融、医疗）中运行的代理尤为重要，因为盲目的自信可能带来危险。
即插即用的集成 – 不确定性计算可以在任何提供 token logits 的解码器‑only LLM 上运行，这意味着现有流水线（OpenAI API、Hugging Face Transformers）只需极少的代码改动即可加入 SELAUR。

限制与未来工作

不确定性计算的可扩展性 – 对每个 token 计算三个指标会增加开销；作者指出训练吞吐量约下降 15%。对其进行优化（例如近似或批量缓存）是一个待探索的方向。
领域迁移 – 实验主要集中在模拟环境；该方法在真实的网络 API 或带噪声观测的物理机器人上的泛化能力还有待验证。
奖励设计仍然针对任务 – 虽然不确定性是通用的，但步级与轨迹级重塑的具体权重可能需要针对不同领域进行调节。未来工作可以探索自动元学习权重。
长时程信用分配 – 对于极长的回合（数百步），仅靠不确定性可能不足以完全解决延迟奖励问题；与层次强化学习相结合可能更有前景。

总体而言，SELAUR 为开发者提供了一条实用路径，使基于 LLM 的代理能够从自身的置信信号中学习，从而实现更稳健、高效的自主系统。

作者

Dengjia Zhang
Xiaoou Liu
Lu Cheng
Yaqing Wang
Kenton Murray
Hua Wei

论文信息

arXiv ID: 2602.21158v1
分类: cs.LG, cs.CL
出版日期: 2026年2月24日
PDF: Download PDF

[Paper] SELAUR：自我进化 LLM 代理通过不确定性感知奖励

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型