[Paper] MemSkill：学习与进化记忆技能以实现自我进化的智能体

发布: 1天前 (2026年2月3日 GMT+8 02:53)

7 min read

原文: arXiv

Source: arXiv - 2602.02474v1

概述

本文介绍了 MemSkill，这是一种新颖的框架，将大型语言模型（LLM）代理的记忆操作视为可学习、可复用的技能，而不是固定的手工编写函数。通过让系统自行发现并演化从长交互历史中提取、整合和裁剪信息的方式，MemSkill 实现了更灵活高效的记忆管理，从而提升了下游任务的性能。

基于技能的记忆架构 – 将记忆提取、整合和裁剪重新定义为可按需选择和执行的模块化“技能”。
闭环学习循环 – 结合 控制器（技能选择器）、执行器（应用所选技能的语言模型）和 设计者（从失败案例中创建/优化技能的自动审查者）。
自我进化的技能集 – 设计者持续扩展技能库，使代理能够在无需人工重新设计的情况下适应新的交互模式。
实证验证 – 与强大的静态记忆基线相比，在四个基准（LoCoMo、LongMemEval、HotpotQA、ALFWorld）上展示出持续的提升。
技能演化分析 – 提供关于技能库在训练迭代中如何增长和专门化的定性与定量洞察。

技能库 – 每个技能都是一个简短的提示模板，告诉大型语言模型 要做什么（例如，“总结最近 5 次用户回合”，“合并重叠的事实”，“删除过期条目”）。
控制器 – 一个轻量级的策略网络（通常是小型 Transformer 或 MLP），读取当前交互上下文并从库中挑选出最相关的 top‑k 技能。
执行器 – 一个大型语言模型（如 GPT‑4‑style），接收选中的技能提示以及原始交互轨迹，生成更新后的记忆表示。
设计师 – 每个回合结束后，系统检查生成的记忆是否满足一组验证标准（完整性、正确性）。若检测到失败，设计师 合成新的技能提示 或 改进已有提示（使用同一 LLM），随后将其加入技能库。
训练循环 – 控制器使用强化学习（策略梯度）并依据任务奖励信号进行训练，而设计师则在单独的、周期性的 “审查” 阶段工作。整个流水线迭代运行，使得选择策略和技能集合能够同步提升。

基准	静态内存基线	MemSkill	相对 ↑
LoCoMo（长上下文推理）	68.2%	74.9%	+9.8%
LongMemEval（记忆回忆）	61.5%	68.3%	+11.1%
HotpotQA（多跳问答）	73.0%	78.6%	+7.6%
ALFWorld（具身任务）	55.4%	62.1%	+12.1%

总体而言，MemSkill 指向一种新范式，即 LLM 代理的记忆不再是静态数据结构，而是动态、自我优化的技能集合——为更具适应性和长期运行的 AI 助手打开了大门。