[Paper] 用于大语言模型持续适应的 Memory Bank Compression

发布: 1个月前 (2026年1月3日 GMT+8 01:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.00756v1

概览

论文 “Memory Bank Compression for Continual Adaptation of Large Language Models” 解决了一个紧迫的问题：在新数据不断流入的情况下，使大规模语言模型保持最新，而不会导致内存激增或抹去模型已有的知识。作者提出了 MBC，一种压缩持续学习 LLM 所使用的外部记忆库的技术，使得在线高效更新成为可能，同时保留先前的知识。

关键贡献

Memory‑Bank Compression (MBC): 基于码本的优化，将外部内存压缩至原始大小的极小比例（约为基线的 0.3 %）。
Online Resetting Mechanism: 防止在流式更新过程中学习到的码本崩塌，确保适应过程的稳定性。
Key‑Value Low‑Rank Adaptation (KV‑LoRA): 将压缩的记忆向量集成到大语言模型的注意力层中，仅增加极少的额外参数。
Empirical Validation: 实验证明 MBC 在保持基准问答任务高准确率的同时，大幅降低内存占用。
Open‑Source Release: 完整实现和脚本已公开发布，鼓励可重复性研究和下游使用。

Source: …

方法论

Memory Bank as a Retrieval Store – 在许多持续学习设置中，LLM 与一个外部的“记忆库”配合使用，记忆库保存过去示例的嵌入。在推理时，模型检索最相关的条目以增强其预测。
Codebook Optimization – 与其存储每个原始嵌入，MBC 学习一个码本，其中包含有限数量的原型向量。每个新记忆条目都会量化到最近的原型，从而显著降低存储需求。
Online Resetting – 随着新数据流入，嵌入的分布可能会发生偏移，导致许多原型未被使用（码本崩塌）。作者会定期根据当前数据统计重新初始化使用率低的原型，保持码本的表达能力。
KV‑LoRA Integration – 压缩后的记忆向量通过对键（Key）和值（Value）投影矩阵的低秩更新注入到 LLM 的注意力机制中。这只增加极少量可训练参数，保持原模型的效率。
Training Loop – 系统执行在线更新：每个进入的批次触发 (a) 将数据量化到码本，(b) 使用 KV‑LoRA 增强的注意力进行前向传播，(c) 对 LoRA 参数和码本向量进行轻量梯度更新。

结果与发现

模型 / 设置	内存大小（相对）	问答准确率（保留）
基线（完整内存）	100 %	84.2 %
MBC（提出的）	0.3 %	83.7 %
其他压缩技巧	5–10 %	78–81 %

压缩比率： 与最强的现有方法相比，MBC 实现了约 300 倍 的内存使用量降低。
保留准确率： QA 性能下降不足 0.5 %，表明压缩后的表示仍能捕获关键信息。
计算成本： 由于仅更新 LoRA 参数，每一步在线训练所需的 GPU 时间约为完整微调的 ≈2–3 倍 更少。
稳定性： 在线重置机制消除了码本的灾难性退化，长时间流式运行中损失曲线平滑如图所示。

实际影响

Edge & On‑Device AI: 设备存储受限（例如智能手机、物联网网关）现在可以托管一个“记忆增强”的大型语言模型，保持最新状态，无需下载庞大的更新包。
Enterprise Knowledge Bases: 企业可以持续向大型语言模型输入内部文档，同时保持辅助记忆轻量化，从而实现最新的聊天机器人或搜索助手。
Cost‑Effective Model Maintenance: 降低内存和计算开销直接转化为云托管费用的降低，适用于依赖持续学习的服务（例如个性化推荐引擎）。
Rapid Prototyping: 开发者可以尝试流式数据管道（新闻推送、日志），并立即看到模型改进，而不会出现灾难性遗忘的风险。
Compatibility: 由于 MBC 基于任何 transformer 架构的 LLM 并仅添加 LoRA 风格的适配器，能够以最少的重构直接集成到现有代码库中。

限制与未来工作

码本大小选择： 最佳原型数量取决于数据集；论文采用启发式搜索，这在新领域可能会比较繁琐。
长期漂移： 虽然重置机制可以缓解崩溃，但如果数据分布在数月内剧烈变化，码本仍可能变得陈旧——未来工作可以探索持续的码本增长或层次化原型。
评估范围： 实验主要聚焦于问答基准；将 MBC 应用于生成密集型任务（如对话、代码合成）仍是一个未解之题。
硬件特异性： 当前实现假设 GPU 友好的量化；将该方法适配到专用加速器（TPU、边缘 NPU）可能需要额外的工程工作。

总体而言，MBC 为在大规模上实现持续学习的 LLM 提供了一个引人注目的方案，开启了更具响应性和内存效率的 AI 服务的大门。

作者

Thomas Katraouras
Dimitrios Rafailidis

论文信息

arXiv ID: 2601.00756v1
分类: cs.LG, cs.CL
出版日期: 2026年1月2日
PDF: Download PDF

[Paper] 用于大语言模型持续适应的 Memory Bank Compression

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 理性几何：有效数学推理的谱特征

[Paper] 探索大语言模型在主观跨度识别任务上的性能

[Paper] TeleDoCTR：面向电信的领域特定与上下文故障排除

[论文] Fast-weight Product Key Memory