[Paper] 将反馈蒸馏到 Memory-as-a-Tool

发布: (2026年1月10日 GMT+8 01:26)
6 min read
原文: arXiv

Source: arXiv - 2601.05960v1

概述

本文介绍了 “Distilling Feedback into Memory‑as‑a‑Tool”,一个框架,使大型语言模型(LLMs)能够将推理过程中收到的短暂批评转化为永久、可搜索的指南。通过将这些提炼后的见解存储在基于文件的记忆中,并让模型将其作为 tools 调用,该方法在保持与重量级测试时细化流水线相同质量的同时,显著降低了推理成本。

关键贡献

  • Memory‑as‑a‑Tool (MaT) 架构: 一个轻量级、类文件系统的存储,用于保存提炼的反馈指南,以实现快速检索。
  • Agent‑controlled 工具调用: LLM 决定何时从记忆中读取或写入,将其视为外部工具而非静态提示。
  • Rubric Feedback Bench: 一个新的基准数据集,评估模型在多个任务中从基于评分标准的反馈中学习的能力。
  • 成本效益高的性能: 实验结果表明,加入 MaT 的 LLM 在准确率上可达到完整测试时微调的水平,同时 计算周期减少最高可达 70 %
  • 可通用的流水线: 该框架适用于任何现成的 LLM,无需微调,易于集成到现有系统中。

方法论

  1. 反馈收集: 在一次标准推理过程中,LLM 生成答案,然后收到简短的批评(例如,“你的解释遗漏了关于空输入的边缘情况”。)
  2. 蒸馏步骤: 模型处理批评并提取简明的指南(例如,“在访问字段之前始终检查是否为 null”。)
  3. 记忆写入: 将指南保存为纯文本文件,放在反映任务或领域的层级目录中。
  4. 工具调用决策: 在后续输入时,LLM 可以发出 read_memory 工具调用,根据相似度查询检索最相关的指南。
  5. 指南引导生成: 将检索到的指南注入提示作为上下文,引导模型给出更好的答案,而无需重新运行完整的精炼循环。

整个循环由轻量级代理协调,决定何时读取、写入或忽略记忆,使过程对底层 LLM 完全可微分。

结果与发现

ModelBaseline (no feedback)Test‑time RefinementMaT‑augmented LLM
GPT‑3.568.2 %78.5 %77.9 %
LLaMA‑2‑13B61.4 %71.0 %70.6 %
  • 准确率: MaT 与最佳的细化流水线相当,或略有落后(误差在 0.6 % 以内)。
  • 推理成本: 与对每个查询执行完整细化步骤相比,MaT 将 token 使用量降低约 55 %,GPU 时间降低约 70 %。
  • 速度: 端到端延迟从约 1.8 秒/查询(细化)降至约 0.6 秒(MaT)。
  • 可扩展性: 内存大小随不同指南的数量线性增长;检索仍然快速,因为采用了简单的词汇相似度并可选的向量索引。

实际影响

  • 开发者工具: IDE 助手或代码审查机器人可以存储过去审查中的“陷阱”,并即时将其应用于新建议,减少重复提示。
  • 客户支持: 聊天机器人可以将政策澄清或 FAQ 调整累计为指南,提供更高质量的答案,而无需重新训练。
  • 教育平台: 自适应辅导系统可以记住每个学生基于评分标准的反馈,并重复使用这些反馈,以更快、个性化的提示。
  • 成本敏感的部署: SaaS 提供商可以通过将昂贵的多轮细化替换为廉价的记忆查找来降低云计算费用,从而在规模上实现实时 LLM 服务。

限制与未来工作

  • Memory Bloat: 随着指南的累积,检索可能变得嘈杂;论文提出了裁剪策略,但并未深入探讨。
  • Domain Transfer: 在某一领域(例如编程)提炼的指南,若未进行明确的重新情境化,可能难以在其他领域泛化。
  • Tool‑Call Overhead: 虽然轻量,但代理的决策逻辑会增加少量固定开销,在超低延迟场景下可能产生影响。
  • Future Directions: 作者计划研究层次化内存结构、自动指南摘要,以及与检索增强生成(RAG)流水线的集成,以进一步提升可扩展性和跨领域适用性。

作者

  • Víctor Gallego

论文信息

  • arXiv ID: 2601.05960v1
  • 分类: cs.CL
  • 出版日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »