[论文] MemRL：通过运行时强化学习在 Episodic Memory 上实现自我进化的智能体

发布: 1个月前 (2026年1月7日 GMT+8 01:14)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03192v1

Overview

MemRL 引入了一种新方式，使大型语言模型（LLM）代理能够 即时学习，其方法是将其情景记忆视为强化学习（RL）游乐场。与反复微调庞大模型（成本高且会遗忘旧技能）不同，MemRL 将 LLM 冻结，并让轻量级、非参数化的记忆模块通过来自环境的试错反馈来演化其检索策略。其结果是代理能够在运行时持续提升其问题解决能力库。

关键贡献

两阶段检索：首先通过语义相似性过滤记忆条目，然后使用学习得到的 Q 值对剩余候选进行排序，这些 Q 值反映它们对当前任务的效用。
记忆上的非参数强化学习：直接对情景记忆库应用经典的 Q 学习更新，避免昂贵的基于梯度的微调。
稳定性‑可塑性分离：保持 LLM 推理核心冻结（稳定），同时允许记忆适应（可塑），消除灾难性遗忘。
广泛基准验证：在多样化套件上展示一致提升——HLE（人类水平评估）、BigCodeBench（代码生成）、ALFWorld（交互式仿真）以及 Lifelong Agent Bench（持续学习）。
运行时自我进化：证明代理在部署期间可以在不更新权重的情况下提升性能，纯粹通过优化记忆效用。

方法论

Frozen LLM Backbone – 大语言模型只加载一次且永不更新；它提供确定性的、高质量的推理和生成。
Episodic Memory Store – 维护一个过去交互元组 ⟨state, action, reward, next‑state⟩ 的数据库。每条记录通过语义嵌入进行索引（例如使用 LLM 自身的编码器）。
Two‑Phase Retrieval
- Phase 1 – Semantic Filtering: 给定新查询，检索与查询嵌入最相近的前 k 条记忆条目。
- Phase 2 – Utility Ranking: 对过滤后的集合，使用轻量级 Q‑network（或甚至是表格估计器）为每条条目计算 Q‑值。Q‑值最高的条目被选为“建议动作”。
Runtime RL Loop
- 代理在环境中执行建议动作，观察奖励，并将转移记录回记忆中。
- 使用标准 Q‑learning（例如 TD‑error）根据观察到的奖励和下一个状态的最大 Q‑值更新 Q‑值。
- 随着时间推移，高奖励策略的 Q‑值会变大，而噪声或低价值的记忆会被降级。
Continuous Deployment – 因为仅记忆及其 Q‑值会变化，系统可以在生产服务器上无限期运行，而无需重新训练庞大的 LLM。

结果与发现

基准	基线（静态内存）	MemRL	相对提升
HLE（语言任务）	68.2 %	77.5 %	+13.6 %
BigCodeBench（代码生成）	45.1 %	58.3 %	+29.4 %
ALFWorld（交互式导航）	52.8 %	64.9 %	+22.9 %
Lifelong Agent Bench（持续学习）	61.4 %	73.2 %	+19.2 %

稳定性：冻结的 LLM 在早期任务上的表现从未下降，确认不存在灾难性遗忘。
可塑性：Q 值在几百次交互内收敛，使模型能够快速适应新的任务分布。
消融实验：去除阶段 2（效用排序）会导致性能下降约 10%，凸显学习到的 Q 值相较于纯语义相似性的关键性。

实际意义

部署时技能增长：嵌入 LLM 代理的 SaaS 产品（例如代码助手、聊天机器人、自治 UI 代理）现在可以通过真实用户交互进行改进，而无需昂贵的模型再训练管道。
成本效益的持续学习：公司可以避免 GPU 密集型的微调周期；仅使用内存的 RL 更新在 CPU 或普通 GPU 上运行，显著降低运营成本。
安全性与审计：由于核心 LLM 本身不变，其基线行为保持可审计和可验证，而可变的记忆可以被检查、记录，并在出现不良策略时回滚。
领域特定适配：团队可以用专有示例（例如内部 API、编码规范）来初始化情景记忆，让代理随时间细化其使用方式，实现“个性化 LLM”，而无需将专有数据暴露给模型权重。

Limitations & Future Work

Memory Scalability: 随着回合数量的增加，检索延迟可能会提升；需要采用高效的索引方式（例如 IVF‑PQ）或记忆裁剪策略，以支持长期运行的服务。
Reward Design: 该框架依赖于形状良好的奖励信号；稀疏或噪声较大的奖励会减慢 Q 值的收敛，因而需要进行奖励塑形或引入辅助学习信号。
Generalization Beyond Retrieval: MemRL 在解答可以从过去示例中组装的情况下表现出色；但对于需要全新推理的任务，仍可能需要参数更新。
Future Directions: 作者提出将 meta‑RL 融入系统，以动态调整 Q‑learning 超参数，探索用于多步规划的层次记忆结构，并将该方法扩展到多模态智能体（视觉‑语言）。

作者

Shengtao Zhang
Jiaqian Wang
Ruiwen Zhou
Junwei Liao
Yuchen Feng
Weinan Zhang
Ying Wen
Zhiyu Li
Feiyu Xiong
Yutao Qi
Bo Tang
Muning Wen

Source:

论文信息

arXiv ID: 2601.03192v1
分类: cs.CL
出版日期: 2026年1月6日
PDF: 下载 PDF

[论文] MemRL：通过运行时强化学习在 Episodic Memory 上实现自我进化的智能体

Overview

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 链接证据：面向深度搜索代理的鲁棒强化学习与引用感知评分奖励

[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑