第2部分：为什么 Transformer 仍然会遗忘

发布: 1个月前 (2025年12月29日 GMT+8 05:05)

9 分钟阅读

原文: Dev.to

Source: Dev.to

第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎

(三部分系列的第二篇)

在第 1 部分中，我们看到仅仅增加上下文长度并不解决记忆问题。

在这里，我们引入一种以记忆为中心的思考方式，解释为什么模型在长上下文下会记住、遗忘或失败。

为什么架构标签不再有用

大多数关于序列模型的讨论都围绕着架构家族——Transformers、RNN、状态空间模型、线性注意力等。虽然这些标签在历史上很有用，但它们常常掩盖了模型行为背后的真实原因。

两个架构截然不同的模型可能因同样的原因而失败。
两个看似相似的模型在长上下文下可能表现截然不同。

MIRAS 视角从一个简单的转变开始：不再问 “这是什么架构？”，而是问 “这个模型实现了什么样的记忆系统？” 一旦采用这种视角，许多长上下文的失败就不再显得神秘，而是显得必然。

记忆作为系统，而非副作用

在高层次上，任何处理随时间变化序列的系统都必须回答四个问题——显式或隐式地：

信息是如何写入记忆的？
信息随后是如何被检索的？
什么会被遗忘，何时遗忘？
当新数据到来时，记忆如何更新？

传统模型间接地回答这些问题。

循环模型 通过将历史压缩到隐藏状态来写入，并在下一步暴露该状态来读取。
Transformer 通过将标记追加到上下文中来写入，并通过对它们进行注意力计算来读取。
当上下文限制被超出或压缩导致细节丢失时，遗忘会自动发生。

MIRAS 将这些机制显式化，并将它们视为 设计选择，而非副作用。

四个 MIRAS 设计旋钮

MIRAS（Memory‑Informed Recurrent Associative Systems）使用四个核心组件来刻画序列模型。它们并不依赖于某一种特定架构；而是描述 记忆的行为方式。

设计旋钮	定义内容
记忆结构	记忆的形式（向量、矩阵、更丰富的神经网络等）。固定大小的结构会导致压缩；更丰富的结构则允许选择性保留。
注意偏置	模型认为相关的内容。在 Transformer 中通常是点积相似度。此选择会强烈影响检索到的内容以及被忽略的内容，尤其在噪声或长序列中。
保持/遗忘机制	遗忘是受控且自适应的，还是隐式且不受控制的。遗忘是一种必要，而非缺陷。
记忆更新规则	记忆随时间的变化方式。有些模型仅在训练期间更新记忆；其他模型则允许在推理期间进行受控更新。

MIRAS framework control panel
示意图展示四个 MIRAS 维度：记忆结构、注意偏置、保持以及更新规则。

通过 MIRAS 重新诠释熟悉的模型

从 MIRAS 的视角审视常见架构，可更清晰地看出它们的优势与不足。

Transformers
- Memory structure（记忆结构）: 完整上下文窗口（活跃）。
- Attentional bias（注意力偏置）: 基于相似度的注意力。
- Retention（保持）: 粗糙——窗口满后，较早的信息会完全消失。
- Update rule（更新规则）: 推理期间保持静态。
Linear‑attention & state‑space models
- 通过修改结构和更新规则来提升效率，但依赖于激进的压缩。
- 这解释了它们虽然易于扩展，却在极长序列上难以实现精确回忆的原因。

关键洞见：这些权衡并非偶然，而是直接源自每个模型所作的记忆设计选择。

为什么损失函数和目标很重要

在 MIRAS 中，一个细微但重要的点是，记忆行为不仅受架构影响，还受 被优化的目标 的影响。

许多模型在很大程度上依赖均方误差（MSE）类目标或基于相似度的损失。
这类损失对噪声和异常值敏感，进而影响记忆更新的侧重点。

MIRAS 利用这一观察，提出了改变相关性和稳定性定义的替代公式。其结果不仅提升了鲁棒性，还使在长时间且噪声较大的输入下，记忆行为更加可预测。

**要点：**记忆不仅是信息存储的地方；它同样受到决定保留内容的学习信号的塑造。

在讨论 Titans 之前，这一框架为何重要

如果没有像 MIRAS 这样的框架，“Titans”（测试时更新、惊喜信号、适应性遗忘等）看起来可能只是一堆巧妙的技巧。使用 MIRAS，这些选择变得清晰可见——它们是对明确的记忆设计问题的答案，而不是临时的优化。

第 1 部分 表明仅靠注意力无法充当长期记忆。第 2 部分 解释了 为什么 大多数现有替代方案仍然不足。只有在这种框架下，审视 Titans 作为不同记忆系统的具体实现才有意义。

在真实应用中需要关注的要点

Memory structure: 系统是否提供了足够丰富的表示以完成任务？
Attentional bias: 相似度度量是否适用于数据分布？
Retention policy: 遗忘是否受到控制，还是在上下文溢出时无意中发生？
Update rule: 模型能否在推理期间调整其记忆，还是在训练后被冻结？

将这四个调节项牢记在心，有助于您在生产环境中诊断并提升长上下文性能。

含义

如果你将 MIRAS 视角应用于真实系统，模式会很快显现。当记忆结构过于僵化、保留未受控制，或即使输入变化更新规则仍被冻结时，模型会失效。相反，当记忆设计有意且与任务需求对齐时，系统会更具鲁棒性。

这种观点尤其适用于代理、流式数据、长期运行的进程，以及任何模型必须连续运行而非在孤立提示中工作的应用。

展望第 3 部分

第 2 部分奠定了概念基础。在第 3 部分，我们将深入研究 Titans 的架构，看看它如何在实践中实现这些记忆原则。我们将检查长期记忆是如何表示的、在推理过程中如何更新，以及如何通过遗忘机制保持系统的稳定性。

第2部分：为什么 Transformer 仍然会遗忘

第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎

为什么架构标签不再有用

记忆作为系统，而非副作用

四个 MIRAS 设计旋钮

通过 MIRAS 重新诠释熟悉的模型

为什么损失函数和目标很重要

在讨论 Titans 之前，这一框架为何重要

在真实应用中需要关注的要点

含义

展望第 3 部分

相关文章

生成式 AI：改变技术的未来

语言代理树搜索统一语言模型中的推理、行动和规划

我要求一只鹦鹉。AI 给了我一只乌鸦并把它放走。

当神经网络停止学习时：理解梯度消失

第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎

为什么架构标签不再有用

记忆作为系统，而非副作用

四个 MIRAS 设计旋钮

通过 MIRAS 重新诠释熟悉的模型

为什么损失函数和目标很重要

在讨论 Titans 之前，这一框架为何重要

在真实应用中需要关注的要点

含义

展望第 3 部分

相关文章

生成式 AI：改变技术的未来

语言代理树搜索统一语言模型中的推理、行动和规划

我要求一只鹦鹉。AI 给了我一只乌鸦并把它放走。

当神经网络停止学习时：理解梯度消失

第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎

展望第 3 部分