[论文] MemRL:通过运行时强化学习在 Episodic Memory 上实现自我进化的智能体
发布: (2026年1月7日 GMT+8 01:14)
7 min read
原文: arXiv
Source: arXiv - 2601.03192v1
Overview
MemRL 引入了一种新方式,使大型语言模型(LLM)代理能够 即时学习,其方法是将其情景记忆视为强化学习(RL)游乐场。与反复微调庞大模型(成本高且会遗忘旧技能)不同,MemRL 将 LLM 冻结,并让轻量级、非参数化的记忆模块通过来自环境的试错反馈来演化其检索策略。其结果是代理能够在运行时持续提升其问题解决能力库。
关键贡献
- 两阶段检索:首先通过语义相似性过滤记忆条目,然后使用学习得到的 Q 值对剩余候选进行排序,这些 Q 值反映它们对当前任务的效用。
- 记忆上的非参数强化学习:直接对情景记忆库应用经典的 Q 学习更新,避免昂贵的基于梯度的微调。
- 稳定性‑可塑性分离:保持 LLM 推理核心冻结(稳定),同时允许记忆适应(可塑),消除灾难性遗忘。
- 广泛基准验证:在多样化套件上展示一致提升——HLE(人类水平评估)、BigCodeBench(代码生成)、ALFWorld(交互式仿真)以及 Lifelong Agent Bench(持续学习)。
- 运行时自我进化:证明代理在部署期间可以在不更新权重的情况下提升性能,纯粹通过优化记忆效用。
方法论
- Frozen LLM Backbone – 大语言模型只加载一次且永不更新;它提供确定性的、高质量的推理和生成。
- Episodic Memory Store – 维护一个过去交互元组 ⟨state, action, reward, next‑state⟩ 的数据库。每条记录通过语义嵌入进行索引(例如使用 LLM 自身的编码器)。
- Two‑Phase Retrieval
- Phase 1 – Semantic Filtering: 给定新查询,检索与查询嵌入最相近的前 k 条记忆条目。
- Phase 2 – Utility Ranking: 对过滤后的集合,使用轻量级 Q‑network(或甚至是表格估计器)为每条条目计算 Q‑值。Q‑值最高的条目被选为“建议动作”。
- Runtime RL Loop
- 代理在环境中执行建议动作,观察奖励,并将转移记录回记忆中。
- 使用标准 Q‑learning(例如 TD‑error)根据观察到的奖励和下一个状态的最大 Q‑值更新 Q‑值。
- 随着时间推移,高奖励策略的 Q‑值会变大,而噪声或低价值的记忆会被降级。
- Continuous Deployment – 因为仅记忆及其 Q‑值会变化,系统可以在生产服务器上无限期运行,而无需重新训练庞大的 LLM。
结果与发现
| 基准 | 基线(静态内存) | MemRL | 相对提升 |
|---|---|---|---|
| HLE(语言任务) | 68.2 % | 77.5 % | +13.6 % |
| BigCodeBench(代码生成) | 45.1 % | 58.3 % | +29.4 % |
| ALFWorld(交互式导航) | 52.8 % | 64.9 % | +22.9 % |
| Lifelong Agent Bench(持续学习) | 61.4 % | 73.2 % | +19.2 % |
- 稳定性:冻结的 LLM 在早期任务上的表现从未下降,确认不存在灾难性遗忘。
- 可塑性:Q 值在几百次交互内收敛,使模型能够快速适应新的任务分布。
- 消融实验:去除阶段 2(效用排序)会导致性能下降约 10%,凸显学习到的 Q 值相较于纯语义相似性的关键性。
实际意义
- 部署时技能增长:嵌入 LLM 代理的 SaaS 产品(例如代码助手、聊天机器人、自治 UI 代理)现在可以通过真实用户交互进行改进,而无需昂贵的模型再训练管道。
- 成本效益的持续学习:公司可以避免 GPU 密集型的微调周期;仅使用内存的 RL 更新在 CPU 或普通 GPU 上运行,显著降低运营成本。
- 安全性与审计:由于核心 LLM 本身不变,其基线行为保持可审计和可验证,而可变的记忆可以被检查、记录,并在出现不良策略时回滚。
- 领域特定适配:团队可以用专有示例(例如内部 API、编码规范)来初始化情景记忆,让代理随时间细化其使用方式,实现“个性化 LLM”,而无需将专有数据暴露给模型权重。
Limitations & Future Work
- Memory Scalability: 随着回合数量的增加,检索延迟可能会提升;需要采用高效的索引方式(例如 IVF‑PQ)或记忆裁剪策略,以支持长期运行的服务。
- Reward Design: 该框架依赖于形状良好的奖励信号;稀疏或噪声较大的奖励会减慢 Q 值的收敛,因而需要进行奖励塑形或引入辅助学习信号。
- Generalization Beyond Retrieval: MemRL 在解答可以从过去示例中组装的情况下表现出色;但对于需要全新推理的任务,仍可能需要参数更新。
- Future Directions: 作者提出将 meta‑RL 融入系统,以动态调整 Q‑learning 超参数,探索用于多步规划的层次记忆结构,并将该方法扩展到多模态智能体(视觉‑语言)。
作者
- Shengtao Zhang
- Jiaqian Wang
- Ruiwen Zhou
- Junwei Liao
- Yuchen Feng
- Weinan Zhang
- Ying Wen
- Zhiyu Li
- Feiyu Xiong
- Yutao Qi
- Bo Tang
- Muning Wen
Source:
论文信息
- arXiv ID: 2601.03192v1
- 分类: cs.CL
- 出版日期: 2026年1月6日
- PDF: 下载 PDF