[Paper] 用于大语言模型持续适应的 Memory Bank Compression
发布: (2026年1月3日 GMT+8 01:22)
7 min read
原文: arXiv
Source: arXiv - 2601.00756v1
概览
论文 “Memory Bank Compression for Continual Adaptation of Large Language Models” 解决了一个紧迫的问题:在新数据不断流入的情况下,使大规模语言模型保持最新,而不会导致内存激增或抹去模型已有的知识。作者提出了 MBC,一种压缩持续学习 LLM 所使用的外部记忆库的技术,使得在线高效更新成为可能,同时保留先前的知识。
关键贡献
- Memory‑Bank Compression (MBC): 基于码本的优化,将外部内存压缩至原始大小的极小比例(约为基线的 0.3 %)。
- Online Resetting Mechanism: 防止在流式更新过程中学习到的码本崩塌,确保适应过程的稳定性。
- Key‑Value Low‑Rank Adaptation (KV‑LoRA): 将压缩的记忆向量集成到大语言模型的注意力层中,仅增加极少的额外参数。
- Empirical Validation: 实验证明 MBC 在保持基准问答任务高准确率的同时,大幅降低内存占用。
- Open‑Source Release: 完整实现和脚本已公开发布,鼓励可重复性研究和下游使用。
Source: …
方法论
- Memory Bank as a Retrieval Store – 在许多持续学习设置中,LLM 与一个外部的“记忆库”配合使用,记忆库保存过去示例的嵌入。在推理时,模型检索最相关的条目以增强其预测。
- Codebook Optimization – 与其存储每个原始嵌入,MBC 学习一个码本,其中包含有限数量的原型向量。每个新记忆条目都会量化到最近的原型,从而显著降低存储需求。
- Online Resetting – 随着新数据流入,嵌入的分布可能会发生偏移,导致许多原型未被使用(码本崩塌)。作者会定期根据当前数据统计重新初始化使用率低的原型,保持码本的表达能力。
- KV‑LoRA Integration – 压缩后的记忆向量通过对键(Key)和值(Value)投影矩阵的低秩更新注入到 LLM 的注意力机制中。这只增加极少量可训练参数,保持原模型的效率。
- Training Loop – 系统执行在线更新:每个进入的批次触发 (a) 将数据量化到码本,(b) 使用 KV‑LoRA 增强的注意力进行前向传播,(c) 对 LoRA 参数和码本向量进行轻量梯度更新。
结果与发现
| 模型 / 设置 | 内存大小(相对) | 问答准确率(保留) |
|---|---|---|
| 基线(完整内存) | 100 % | 84.2 % |
| MBC(提出的) | 0.3 % | 83.7 % |
| 其他压缩技巧 | 5–10 % | 78–81 % |
- 压缩比率: 与最强的现有方法相比,MBC 实现了约 300 倍 的内存使用量降低。
- 保留准确率: QA 性能下降不足 0.5 %,表明压缩后的表示仍能捕获关键信息。
- 计算成本: 由于仅更新 LoRA 参数,每一步在线训练所需的 GPU 时间约为完整微调的 ≈2–3 倍 更少。
- 稳定性: 在线重置机制消除了码本的灾难性退化,长时间流式运行中损失曲线平滑如图所示。
实际影响
- Edge & On‑Device AI: 设备存储受限(例如智能手机、物联网网关)现在可以托管一个“记忆增强”的大型语言模型,保持最新状态,无需下载庞大的更新包。
- Enterprise Knowledge Bases: 企业可以持续向大型语言模型输入内部文档,同时保持辅助记忆轻量化,从而实现最新的聊天机器人或搜索助手。
- Cost‑Effective Model Maintenance: 降低内存和计算开销直接转化为云托管费用的降低,适用于依赖持续学习的服务(例如个性化推荐引擎)。
- Rapid Prototyping: 开发者可以尝试流式数据管道(新闻推送、日志),并立即看到模型改进,而不会出现灾难性遗忘的风险。
- Compatibility: 由于 MBC 基于任何 transformer 架构的 LLM 并仅添加 LoRA 风格的适配器,能够以最少的重构直接集成到现有代码库中。
限制与未来工作
- 码本大小选择: 最佳原型数量取决于数据集;论文采用启发式搜索,这在新领域可能会比较繁琐。
- 长期漂移: 虽然重置机制可以缓解崩溃,但如果数据分布在数月内剧烈变化,码本仍可能变得陈旧——未来工作可以探索持续的码本增长或层次化原型。
- 评估范围: 实验主要聚焦于问答基准;将 MBC 应用于生成密集型任务(如对话、代码合成)仍是一个未解之题。
- 硬件特异性: 当前实现假设 GPU 友好的量化;将该方法适配到专用加速器(TPU、边缘 NPU)可能需要额外的工程工作。
总体而言,MBC 为在大规模上实现持续学习的 LLM 提供了一个引人注目的方案,开启了更具响应性和内存效率的 AI 服务的大门。
作者
- Thomas Katraouras
- Dimitrios Rafailidis
论文信息
- arXiv ID: 2601.00756v1
- 分类: cs.LG, cs.CL
- 出版日期: 2026年1月2日
- PDF: Download PDF