[Paper] 用于大语言模型持续适应的 Memory Bank Compression

发布: (2026年1月3日 GMT+8 01:22)
7 min read
原文: arXiv

Source: arXiv - 2601.00756v1

概览

论文 “Memory Bank Compression for Continual Adaptation of Large Language Models” 解决了一个紧迫的问题:在新数据不断流入的情况下,使大规模语言模型保持最新,而不会导致内存激增或抹去模型已有的知识。作者提出了 MBC,一种压缩持续学习 LLM 所使用的外部记忆库的技术,使得在线高效更新成为可能,同时保留先前的知识。

关键贡献

  • Memory‑Bank Compression (MBC): 基于码本的优化,将外部内存压缩至原始大小的极小比例(约为基线的 0.3 %)。
  • Online Resetting Mechanism: 防止在流式更新过程中学习到的码本崩塌,确保适应过程的稳定性。
  • Key‑Value Low‑Rank Adaptation (KV‑LoRA): 将压缩的记忆向量集成到大语言模型的注意力层中,仅增加极少的额外参数。
  • Empirical Validation: 实验证明 MBC 在保持基准问答任务高准确率的同时,大幅降低内存占用。
  • Open‑Source Release: 完整实现和脚本已公开发布,鼓励可重复性研究和下游使用。

Source:

方法论

  1. Memory Bank as a Retrieval Store – 在许多持续学习设置中,LLM 与一个外部的“记忆库”配合使用,记忆库保存过去示例的嵌入。在推理时,模型检索最相关的条目以增强其预测。
  2. Codebook Optimization – 与其存储每个原始嵌入,MBC 学习一个码本,其中包含有限数量的原型向量。每个新记忆条目都会量化到最近的原型,从而显著降低存储需求。
  3. Online Resetting – 随着新数据流入,嵌入的分布可能会发生偏移,导致许多原型未被使用(码本崩塌)。作者会定期根据当前数据统计重新初始化使用率低的原型,保持码本的表达能力。
  4. KV‑LoRA Integration – 压缩后的记忆向量通过对键(Key)和值(Value)投影矩阵的低秩更新注入到 LLM 的注意力机制中。这只增加极少量可训练参数,保持原模型的效率。
  5. Training Loop – 系统执行在线更新:每个进入的批次触发 (a) 将数据量化到码本,(b) 使用 KV‑LoRA 增强的注意力进行前向传播,(c) 对 LoRA 参数和码本向量进行轻量梯度更新。

结果与发现

模型 / 设置内存大小(相对)问答准确率(保留)
基线(完整内存)100 %84.2 %
MBC(提出的)0.3 %83.7 %
其他压缩技巧5–10 %78–81 %
  • 压缩比率: 与最强的现有方法相比,MBC 实现了约 300 倍 的内存使用量降低。
  • 保留准确率: QA 性能下降不足 0.5 %,表明压缩后的表示仍能捕获关键信息。
  • 计算成本: 由于仅更新 LoRA 参数,每一步在线训练所需的 GPU 时间约为完整微调的 ≈2–3 倍 更少。
  • 稳定性: 在线重置机制消除了码本的灾难性退化,长时间流式运行中损失曲线平滑如图所示。

实际影响

  • Edge & On‑Device AI: 设备存储受限(例如智能手机、物联网网关)现在可以托管一个“记忆增强”的大型语言模型,保持最新状态,无需下载庞大的更新包。
  • Enterprise Knowledge Bases: 企业可以持续向大型语言模型输入内部文档,同时保持辅助记忆轻量化,从而实现最新的聊天机器人或搜索助手。
  • Cost‑Effective Model Maintenance: 降低内存和计算开销直接转化为云托管费用的降低,适用于依赖持续学习的服务(例如个性化推荐引擎)。
  • Rapid Prototyping: 开发者可以尝试流式数据管道(新闻推送、日志),并立即看到模型改进,而不会出现灾难性遗忘的风险。
  • Compatibility: 由于 MBC 基于任何 transformer 架构的 LLM 并仅添加 LoRA 风格的适配器,能够以最少的重构直接集成到现有代码库中。

限制与未来工作

  • 码本大小选择: 最佳原型数量取决于数据集;论文采用启发式搜索,这在新领域可能会比较繁琐。
  • 长期漂移: 虽然重置机制可以缓解崩溃,但如果数据分布在数月内剧烈变化,码本仍可能变得陈旧——未来工作可以探索持续的码本增长或层次化原型。
  • 评估范围: 实验主要聚焦于问答基准;将 MBC 应用于生成密集型任务(如对话、代码合成)仍是一个未解之题。
  • 硬件特异性: 当前实现假设 GPU 友好的量化;将该方法适配到专用加速器(TPU、边缘 NPU)可能需要额外的工程工作。

总体而言,MBC 为在大规模上实现持续学习的 LLM 提供了一个引人注目的方案,开启了更具响应性和内存效率的 AI 服务的大门。

作者

  • Thomas Katraouras
  • Dimitrios Rafailidis

论文信息

  • arXiv ID: 2601.00756v1
  • 分类: cs.LG, cs.CL
  • 出版日期: 2026年1月2日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »