[论文] MemRL:通过运行时强化学习在 Episodic Memory 上实现自我进化的智能体

发布: (2026年1月7日 GMT+8 01:14)
7 min read
原文: arXiv

Source: arXiv - 2601.03192v1

Overview

MemRL 引入了一种新方式,使大型语言模型(LLM)代理能够 即时学习,其方法是将其情景记忆视为强化学习(RL)游乐场。与反复微调庞大模型(成本高且会遗忘旧技能)不同,MemRL 将 LLM 冻结,并让轻量级、非参数化的记忆模块通过来自环境的试错反馈来演化其检索策略。其结果是代理能够在运行时持续提升其问题解决能力库。

关键贡献

  • 两阶段检索:首先通过语义相似性过滤记忆条目,然后使用学习得到的 Q 值对剩余候选进行排序,这些 Q 值反映它们对当前任务的效用
  • 记忆上的非参数强化学习:直接对情景记忆库应用经典的 Q 学习更新,避免昂贵的基于梯度的微调。
  • 稳定性‑可塑性分离:保持 LLM 推理核心冻结(稳定),同时允许记忆适应(可塑),消除灾难性遗忘。
  • 广泛基准验证:在多样化套件上展示一致提升——HLE(人类水平评估)、BigCodeBench(代码生成)、ALFWorld(交互式仿真)以及 Lifelong Agent Bench(持续学习)。
  • 运行时自我进化:证明代理在部署期间可以在不更新权重的情况下提升性能,纯粹通过优化记忆效用。

方法论

  1. Frozen LLM Backbone – 大语言模型只加载一次且永不更新;它提供确定性的、高质量的推理和生成。
  2. Episodic Memory Store – 维护一个过去交互元组 ⟨state, action, reward, next‑state⟩ 的数据库。每条记录通过语义嵌入进行索引(例如使用 LLM 自身的编码器)。
  3. Two‑Phase Retrieval
    • Phase 1 – Semantic Filtering: 给定新查询,检索与查询嵌入最相近的前 k 条记忆条目。
    • Phase 2 – Utility Ranking: 对过滤后的集合,使用轻量级 Q‑network(或甚至是表格估计器)为每条条目计算 Q‑值。Q‑值最高的条目被选为“建议动作”。
  4. Runtime RL Loop
    • 代理在环境中执行建议动作,观察奖励,并将转移记录回记忆中。
    • 使用标准 Q‑learning(例如 TD‑error)根据观察到的奖励和下一个状态的最大 Q‑值更新 Q‑值。
    • 随着时间推移,高奖励策略的 Q‑值会变大,而噪声或低价值的记忆会被降级。
  5. Continuous Deployment – 因为仅记忆及其 Q‑值会变化,系统可以在生产服务器上无限期运行,而无需重新训练庞大的 LLM。

结果与发现

基准基线(静态内存)MemRL相对提升
HLE(语言任务)68.2 %77.5 %+13.6 %
BigCodeBench(代码生成)45.1 %58.3 %+29.4 %
ALFWorld(交互式导航)52.8 %64.9 %+22.9 %
Lifelong Agent Bench(持续学习)61.4 %73.2 %+19.2 %
  • 稳定性:冻结的 LLM 在早期任务上的表现从未下降,确认不存在灾难性遗忘。
  • 可塑性:Q 值在几百次交互内收敛,使模型能够快速适应新的任务分布。
  • 消融实验:去除阶段 2(效用排序)会导致性能下降约 10%,凸显学习到的 Q 值相较于纯语义相似性的关键性。

实际意义

  • 部署时技能增长:嵌入 LLM 代理的 SaaS 产品(例如代码助手、聊天机器人、自治 UI 代理)现在可以通过真实用户交互进行改进,而无需昂贵的模型再训练管道。
  • 成本效益的持续学习:公司可以避免 GPU 密集型的微调周期;仅使用内存的 RL 更新在 CPU 或普通 GPU 上运行,显著降低运营成本。
  • 安全性与审计:由于核心 LLM 本身不变,其基线行为保持可审计和可验证,而可变的记忆可以被检查、记录,并在出现不良策略时回滚。
  • 领域特定适配:团队可以用专有示例(例如内部 API、编码规范)来初始化情景记忆,让代理随时间细化其使用方式,实现“个性化 LLM”,而无需将专有数据暴露给模型权重。

Limitations & Future Work

  • Memory Scalability: 随着回合数量的增加,检索延迟可能会提升;需要采用高效的索引方式(例如 IVF‑PQ)或记忆裁剪策略,以支持长期运行的服务。
  • Reward Design: 该框架依赖于形状良好的奖励信号;稀疏或噪声较大的奖励会减慢 Q 值的收敛,因而需要进行奖励塑形或引入辅助学习信号。
  • Generalization Beyond Retrieval: MemRL 在解答可以从过去示例中组装的情况下表现出色;但对于需要全新推理的任务,仍可能需要参数更新。
  • Future Directions: 作者提出将 meta‑RL 融入系统,以动态调整 Q‑learning 超参数,探索用于多步规划的层次记忆结构,并将该方法扩展到多模态智能体(视觉‑语言)。

作者

  • Shengtao Zhang
  • Jiaqian Wang
  • Ruiwen Zhou
  • Junwei Liao
  • Yuchen Feng
  • Weinan Zhang
  • Ying Wen
  • Zhiyu Li
  • Feiyu Xiong
  • Yutao Qi
  • Bo Tang
  • Muning Wen

Source:

论文信息

  • arXiv ID: 2601.03192v1
  • 分类: cs.CL
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »