第2部分:为什么 Transformer 仍然会遗忘
Source: Dev.to
第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎
(三部分系列的第二篇)
在第 1 部分中,我们看到仅仅增加上下文长度并不解决记忆问题。
在这里,我们引入一种以记忆为中心的思考方式,解释为什么模型在长上下文下会记住、遗忘或失败。
为什么架构标签不再有用
大多数关于序列模型的讨论都围绕着架构家族——Transformers、RNN、状态空间模型、线性注意力等。虽然这些标签在历史上很有用,但它们常常掩盖了模型行为背后的真实原因。
- 两个架构截然不同的模型可能因同样的原因而失败。
- 两个看似相似的模型在长上下文下可能表现截然不同。
MIRAS 视角从一个简单的转变开始:不再问 “这是什么架构?”,而是问 “这个模型实现了什么样的记忆系统?” 一旦采用这种视角,许多长上下文的失败就不再显得神秘,而是显得必然。
记忆作为系统,而非副作用
在高层次上,任何处理随时间变化序列的系统都必须回答四个问题——显式或隐式地:
- 信息是如何写入记忆的?
- 信息随后是如何被检索的?
- 什么会被遗忘,何时遗忘?
- 当新数据到来时,记忆如何更新?
传统模型间接地回答这些问题。
- 循环模型 通过将历史压缩到隐藏状态来写入,并在下一步暴露该状态来读取。
- Transformer 通过将标记追加到上下文中来写入,并通过对它们进行注意力计算来读取。
- 当上下文限制被超出或压缩导致细节丢失时,遗忘会自动发生。
MIRAS 将这些机制显式化,并将它们视为 设计选择,而非副作用。
四个 MIRAS 设计旋钮
MIRAS(Memory‑Informed Recurrent Associative Systems)使用四个核心组件来刻画序列模型。它们并不依赖于某一种特定架构;而是描述 记忆的行为方式。
| 设计旋钮 | 定义内容 |
|---|---|
| 记忆结构 | 记忆的形式(向量、矩阵、更丰富的神经网络等)。固定大小的结构会导致压缩;更丰富的结构则允许选择性保留。 |
| 注意偏置 | 模型认为相关的内容。在 Transformer 中通常是点积相似度。此选择会强烈影响检索到的内容以及被忽略的内容,尤其在噪声或长序列中。 |
| 保持/遗忘机制 | 遗忘是受控且自适应的,还是隐式且不受控制的。遗忘是一种必要,而非缺陷。 |
| 记忆更新规则 | 记忆随时间的变化方式。有些模型仅在训练期间更新记忆;其他模型则允许在推理期间进行受控更新。 |

示意图展示四个 MIRAS 维度:记忆结构、注意偏置、保持以及更新规则。
通过 MIRAS 重新诠释熟悉的模型
从 MIRAS 的视角审视常见架构,可更清晰地看出它们的优势与不足。
-
Transformers
- Memory structure(记忆结构): 完整上下文窗口(活跃)。
- Attentional bias(注意力偏置): 基于相似度的注意力。
- Retention(保持): 粗糙——窗口满后,较早的信息会完全消失。
- Update rule(更新规则): 推理期间保持静态。
-
Linear‑attention & state‑space models
- 通过修改结构和更新规则来提升效率,但依赖于激进的压缩。
- 这解释了它们虽然易于扩展,却在极长序列上难以实现精确回忆的原因。
关键洞见:这些权衡并非偶然,而是直接源自每个模型所作的记忆设计选择。
为什么损失函数和目标很重要
在 MIRAS 中,一个细微但重要的点是,记忆行为不仅受架构影响,还受 被优化的目标 的影响。
- 许多模型在很大程度上依赖均方误差(MSE)类目标或基于相似度的损失。
- 这类损失对噪声和异常值敏感,进而影响记忆更新的侧重点。
MIRAS 利用这一观察,提出了改变相关性和稳定性定义的替代公式。其结果不仅提升了鲁棒性,还使在长时间且噪声较大的输入下,记忆行为更加可预测。
**要点:**记忆不仅是信息存储的地方;它同样受到决定保留内容的学习信号的塑造。
在讨论 Titans 之前,这一框架为何重要
如果没有像 MIRAS 这样的框架,“Titans”(测试时更新、惊喜信号、适应性遗忘等)看起来可能只是一堆巧妙的技巧。使用 MIRAS,这些选择变得清晰可见——它们是对明确的记忆设计问题的答案,而不是临时的优化。
第 1 部分 表明仅靠注意力无法充当长期记忆。第 2 部分 解释了 为什么 大多数现有替代方案仍然不足。只有在这种框架下,审视 Titans 作为不同记忆系统的具体实现才有意义。
在真实应用中需要关注的要点
- Memory structure: 系统是否提供了足够丰富的表示以完成任务?
- Attentional bias: 相似度度量是否适用于数据分布?
- Retention policy: 遗忘是否受到控制,还是在上下文溢出时无意中发生?
- Update rule: 模型能否在推理期间调整其记忆,还是在训练后被冻结?
将这四个调节项牢记在心,有助于您在生产环境中诊断并提升长上下文性能。
含义
如果你将 MIRAS 视角应用于真实系统,模式会很快显现。当记忆结构过于僵化、保留未受控制,或即使输入变化更新规则仍被冻结时,模型会失效。相反,当记忆设计有意且与任务需求对齐时,系统会更具鲁棒性。
这种观点尤其适用于代理、流式数据、长期运行的进程,以及任何模型必须连续运行而非在孤立提示中工作的应用。
展望第 3 部分
第 2 部分奠定了概念基础。在第 3 部分,我们将深入研究 Titans 的架构,看看它如何在实践中实现这些记忆原则。我们将检查长期记忆是如何表示的、在推理过程中如何更新,以及如何通过遗忘机制保持系统的稳定性。