[论文] 记忆缓存：RNNs with 增长记忆

发布: 3天前 (2026年2月28日 GMT+8 02:53)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.24281v1

（请提供需要翻译的正文内容，我将为您翻译成简体中文。）

概述

论文 “Memory Caching: RNNs with Growing Memory” 提出了一种轻量级的附加组件，使循环神经网络（RNN）能够在序列变长时扩展其有效记忆。通过检查点缓存隐藏状态，作者弥合了经典 RNN 的线性时间、固定大小记忆与 Transformer 的二次时间、不断增长记忆之间的差距——提供了一种可调的权衡，能够在当今硬件上部署。

关键贡献

Memory Caching (MC) technique：一种简单的机制，用于存储和复用过去的隐藏状态检查点，能够在不改变 RNN 核心递归结构的前提下有效扩大其记忆容量。
四种 MC 变体：
1. Plain caching – 对每个隐藏状态进行朴素存储。
2. Gated aggregation – 学习对缓存状态的加权融合。
3. Sparse selective caching – 根据学习得到的重要性分数，仅保留一部分检查点。
4. Hybrid deep‑memory caching – 将 MC 与多层（深层）记忆模块相结合。
复杂度插值：MC 可以配置为在 (O(L))（类似 RNN）到 (O(L^2))（类似 Transformer）的时间复杂度之间运行，让实践者能够在延迟与准确性之间找到最佳平衡点。
实证验证：在语言建模基准（如 WikiText‑103）和长上下文推理任务上展示出持续的性能提升，缩小了与 Transformer 的性能差距，同时保持更低的成本。
开源实现：作者发布了代码和预训练检查点，开发者可以轻松将 MC 插入现有的 RNN 流程中。

方法论

Baseline RNN – 作者从标准循环架构（例如 LSTM 或 GRU）开始，该架构处理 token 序列 ({x_t}_{t=1}^L) 并产生隐藏状态 (h_t)。
Checkpointing – 在可配置的间隔（或当学习到的“重要性”信号突升时），将当前隐藏状态保存到缓存 (C = {c_1, …, c_K})。
Memory read‑out – 当 RNN 需要在步骤 (t) 产生输出时，它会查询缓存。
- Plain MC 简单地将所有缓存状态拼接或求平均。
- Gated aggregation 学习门 (g_k = \sigma(W_g c_k + b_g))，并计算 (\tilde{h}_t = \sum_k g_k c_k)。
- Sparse selective MC 对评分函数 (s_k = f(c_k)) 进行 top‑k 选择，只保留最相关的检查点。
Integration – 将检索到的记忆 (\tilde{h}_t) 与当前隐藏状态合并（例如通过相加或小型前馈网络），再送入最终输出层。
Training – 整个系统保持端到端可微；缓存操作使用高效的张量索引实现，因此训练开销保持适中。

结果与发现

任务	模型	困惑度 / 准确率	相对成本
WikiText‑103（语言模型）	LSTM（基线）	34.2	1×
	LSTM + 普通 MC（完整缓存）	30.8	1.3×
	LSTM + 门控 MC	30.5	1.4×
	LSTM + 稀疏 MC（前 10%）	31.2	1.2×
长上下文问答	深度 RNN	68.4% F1	1×
	深度 RNN + 混合 MC	71.9% F1	1.5×
上下文回忆	Transformer（基线）	92.1%	1×
	RNN + 门控 MC	89.4%	0.6×

性能提升：所有 MC 变体都提升了困惑度和下游任务得分，门控聚合带来最强的提升。
效率：即使是完整缓存版本的成本也远低于 Transformer 的二次方成本，稀疏版本可调优至几乎与普通 RNN 同速。
内存‑准确率权衡：通过调整缓存大小或稀疏度，开发者可以实现所需的平衡——例如，10% 缓存可获得约 90% 的完整缓存增益，额外计算量不足 20%。

实际意义

可部署在边缘/低功耗设备上：MC 让你在保持 RNN 轻量递归特性的同时，处理更长的上下文（例如聊天记录、流式日志），而不会导致内存或延迟激增。
即插即用升级：现有的 LSTM/GRU 代码库只需几行包装代码即可采用 MC；无需重写整个模型或切换到 Transformer 结构。
成本效益的扩展：对于处理海量文本流的 SaaS 平台，MC 提供了折中方案——比普通 RNN 有更好的召回率，又比运行全尺度 Transformer 更便宜。
混合架构的潜力：MC 可以与近期的线性注意力 Transformer 结合，产生“记忆增强”混合模型，进一步突破上下文长度的限制。
研究复用：开源的缓存模块可以作为其他序列密集领域的构建块，例如 DNA 序列分析、时间序列预测，或需要长期状态的强化学习代理。

限制与未来工作

缓存管理开销：虽然作者已经将其保持在较低水平，但对于非常长的序列（数十万步）仍需仔细调节缓存大小和驱逐策略，以避免 GPU 内存突增。
任务特定调优：最佳稀疏度水平或门控架构在不同领域之间会有所差异；尚未找到一种“一刀切”的设置。
比较范围：实验主要聚焦于语言建模和召回任务；更广泛的基准（例如多模态视频字幕、代码生成）仍未涉及。
作者提出的未来方向包括：
1. 学习动态缓存更新调度，
2. 将 MC 与检索增强模型结合，
3. 将该技术扩展到非 RNN 的递归结构，如 Neural ODE 或状态空间模型。

作者

Ali Behrouz
Zeman Li
Yuan Deng
Peilin Zhong
Meisam Razaviyayn
Vahab Mirrokni

论文信息

arXiv ID: 2602.24281v1
分类: cs.LG, cs.AI
出版时间: 2026年2月27日
PDF: 下载 PDF

[论文] 记忆缓存：RNNs with 增长记忆

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[Paper] 谁守护守护者？评估已学习表征可辨识性的挑战