[Paper] ParamMem:通过参数化反射记忆增强语言代理

发布: (2026年2月27日 GMT+8 02:28)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.23320v1

概述

本文介绍了 ParamMem,一种新的“参数记忆”组件,使基于语言的智能体能够记住 how 它们在过去问题上的反思方式,并复用这些模式以生成更丰富、更多样的自我反思。通过将 ParamMem 与传统的情景(短期)记忆和跨样本(长期)记忆相结合,作者构建了 ParamAgent,一个能够在代码生成、数学推理和多跳问答任务上持续提升性能的框架。

关键贡献

  • 参数化反射记忆 (ParamMem): 一个轻量级模块,将反射模式直接存储在模型参数中,实现温度控制的多样化自我反馈采样。
  • ParamAgent 框架: 将 ParamMem 与情景记忆和跨样本记忆结合,构建用于迭代自我反思的统一架构。
  • 反射多样性与成功的实证关联: 系统分析表明,反射信号的多样性越高,任务准确率显著提升。
  • 强大且样本高效的提升: 在代码生成、数学推理、多跳问答三大基准套件中,ParamAgent 相比之前的最先进反射代理,绝对提升 3–9 %。
  • 跨尺度迁移: 在小模型上训练的轻量 ParamMem 可迁移至更大模型,立即提升性能且无需额外数据。
  • 无需更强外部模型的自我提升: 该代理能够自举其推理能力,降低对昂贵“教师”模型的依赖。

Source:

方法论

  1. 反思生成循环 – 代理先解决问题,然后自问“哪里出错了?”并生成文本反思。该循环会重复进行,直至满足停止条件(例如置信度阈值)。
  2. ParamMem 设计 – 与其将反思存为原始文本,ParamMem 将有用反思的模式编码为一小组可训练向量(即“参数化记忆”)。推理时,代理使用温度参数从这些向量中采样;温度越高,生成的反思越多样。
  3. 记忆融合
    • 情景记忆(Episodic Memory):当前问题的中间步骤的短期缓存。
    • 跨样本记忆(Cross‑Sample Memory):存放先前示例反思的数据库(通过相似度检索获取)。
    • ParamMem:模型内部学习得到的多样化反思信号来源。
      在每一次反思步骤之前,这三者会被拼接到语言模型的上下文中。
  4. 训练 – 基础语言模型(如 GPT‑Neo、LLaMA)保持冻结。仅对 ParamMem 向量和一个轻量投影层进行训练,使用包含反思增强的示例混合。损失函数鼓励生成的反思提升下游答案的准确性。
  5. 评估 – 作者在以下任务上进行测试:
    • HumanEval(代码生成)
    • MATH(小学数学)
    • HotpotQA(多跳问答)
      评估指标包括代码的 exact match / pass@k、数学的准确率,以及问答的 F1 / EM。

Results & Findings

基准基线(无反射)先前的反思代理ParamAgent
HumanEval (pass@1)38.2 %41.7 %45.9 %
MATH (accuracy)28.4 %31.1 %35.6 %
HotpotQA (EM)62.3 %66.0 %70.8 %
  • 反思多样性很重要: Pearson r ≈ 0.78,反思多样性得分(采样反思的熵)与任务成功率之间呈正相关。
  • 样本效率: 仅使用 5 k 标注的反思,ParamMem 即可达到最终性能的 >90 %;继续增加数据的收益递减。
  • 弱到强的迁移: 在 1.3 B 参数模型上训练的 ParamMem 能提升 7 B 参数模型的准确率 +4 %,表明学习到的反思模式与模型无关。
  • 自我改进循环: 经过几轮自我反思后,代理的答案质量超过了提供初始反思的更强 “教师” 模型,验证了自举能力。

实际意义

  • Developer Tooling: 嵌入 ParamAgent 的 IDE 插件可以在代码生成过程中提供更丰富的调试提示或替代实现,从而减少反复手动提示的需求。
  • Low‑Cost Reasoning Services: SaaS 平台可以部署带有 ParamMem 的中小规模 LLM,以实现与更大、更昂贵模型相当的性能,降低云计算费用。
  • Continuous Learning Systems: 由于 ParamMem 可以通过少量新的反思示例进行更新,产品能够在无需完整模型再训练的情况下适应特定领域的细微差异(例如面向金融的数学)。
  • Safety & Explainability: 多样化的自我反思能够提前暴露失败模式,使自动过滤器在幻觉内容到达终端用户之前将其拦截。
  • Cross‑Model Portability: 团队只需训练一次 ParamMem,即可将其部署到多个模型后端(开源或专有),从而简化维护工作。

限制与未来工作

  • 内存大小与多样性权衡: ParamMem 的容量是有限的;极其多样的任务可能会耗尽其表达能力,需要层次化或动态的内存扩展。
  • 依赖高质量反思: 训练数据仍然需要高质量的人类撰写的反思;噪声或偏见的反思会降低性能。
  • 评估范围: 实验聚焦于结构良好的基准;真实世界的对话代理具有开放式对话仍未测试。
  • 未来方向: 作者建议 (1) 使用稀疏更新技术扩展 ParamMem,(2) 融入来自人类反馈的强化学习以完善反思策略,(3) 探索多模态反思(例如视觉调试提示)用于以代码为中心的代理。

作者

  • Tianjun Yao
  • Yongqiang Chen
  • Yujia Zheng
  • Pan Li
  • Zhiqiang Shen
  • Kun Zhang

论文信息

  • arXiv ID: 2602.23320v1
  • 分类: cs.LG, cs.MA
  • 发表时间: 2026年2月26日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »