第2部分:为什么 Transformer 仍然会遗忘

发布: (2025年12月29日 GMT+8 05:05)
9 min read
原文: Dev.to

Source: Dev.to

第 2 部分 – 为什么长上下文语言模型仍然在记忆方面挣扎

(三部分系列的第二篇)

第 1 部分中,我们看到仅仅增加上下文长度并不解决记忆问题。

在这里,我们引入一种以记忆为中心的思考方式,解释为什么模型在长上下文下会记住、遗忘或失败。

为什么架构标签不再有用

大多数关于序列模型的讨论都围绕着架构家族——Transformers、RNN、状态空间模型、线性注意力等。虽然这些标签在历史上很有用,但它们常常掩盖了模型行为背后的真实原因。

  • 两个架构截然不同的模型可能因同样的原因而失败。
  • 两个看似相似的模型在长上下文下可能表现截然不同。

MIRAS 视角从一个简单的转变开始:不再问 “这是什么架构?”,而是问 “这个模型实现了什么样的记忆系统?” 一旦采用这种视角,许多长上下文的失败就不再显得神秘,而是显得必然。

记忆作为系统,而非副作用

在高层次上,任何处理随时间变化序列的系统都必须回答四个问题——显式或隐式地:

  1. 信息是如何写入记忆的?
  2. 信息随后是如何被检索的?
  3. 什么会被遗忘,何时遗忘?
  4. 当新数据到来时,记忆如何更新?

传统模型间接地回答这些问题。

  • 循环模型 通过将历史压缩到隐藏状态来写入,并在下一步暴露该状态来读取。
  • Transformer 通过将标记追加到上下文中来写入,并通过对它们进行注意力计算来读取。
  • 当上下文限制被超出或压缩导致细节丢失时,遗忘会自动发生。

MIRAS 将这些机制显式化,并将它们视为 设计选择,而非副作用。

四个 MIRAS 设计旋钮

MIRAS(Memory‑Informed Recurrent Associative Systems)使用四个核心组件来刻画序列模型。它们并不依赖于某一种特定架构;而是描述 记忆的行为方式

设计旋钮定义内容
记忆结构记忆的形式(向量、矩阵、更丰富的神经网络等)。固定大小的结构会导致压缩;更丰富的结构则允许选择性保留。
注意偏置模型认为相关的内容。在 Transformer 中通常是点积相似度。此选择会强烈影响检索到的内容以及被忽略的内容,尤其在噪声或长序列中。
保持/遗忘机制遗忘是受控且自适应的,还是隐式且不受控制的。遗忘是一种必要,而非缺陷。
记忆更新规则记忆随时间的变化方式。有些模型仅在训练期间更新记忆;其他模型则允许在推理期间进行受控更新。

MIRAS framework control panel
示意图展示四个 MIRAS 维度:记忆结构、注意偏置、保持以及更新规则。

通过 MIRAS 重新诠释熟悉的模型

从 MIRAS 的视角审视常见架构,可更清晰地看出它们的优势与不足。

  • Transformers

    • Memory structure(记忆结构): 完整上下文窗口(活跃)。
    • Attentional bias(注意力偏置): 基于相似度的注意力。
    • Retention(保持): 粗糙——窗口满后,较早的信息会完全消失。
    • Update rule(更新规则): 推理期间保持静态。
  • Linear‑attention & state‑space models

    • 通过修改结构和更新规则来提升效率,但依赖于激进的压缩。
    • 这解释了它们虽然易于扩展,却在极长序列上难以实现精确回忆的原因。

关键洞见:这些权衡并非偶然,而是直接源自每个模型所作的记忆设计选择。

为什么损失函数和目标很重要

在 MIRAS 中,一个细微但重要的点是,记忆行为不仅受架构影响,还受 被优化的目标 的影响。

  • 许多模型在很大程度上依赖均方误差(MSE)类目标或基于相似度的损失。
  • 这类损失对噪声和异常值敏感,进而影响记忆更新的侧重点。

MIRAS 利用这一观察,提出了改变相关性和稳定性定义的替代公式。其结果不仅提升了鲁棒性,还使在长时间且噪声较大的输入下,记忆行为更加可预测。

**要点:**记忆不仅是信息存储的地方;它同样受到决定保留内容的学习信号的塑造。

在讨论 Titans 之前,这一框架为何重要

如果没有像 MIRAS 这样的框架,“Titans”(测试时更新、惊喜信号、适应性遗忘等)看起来可能只是一堆巧妙的技巧。使用 MIRAS,这些选择变得清晰可见——它们是对明确的记忆设计问题的答案,而不是临时的优化。

第 1 部分 表明仅靠注意力无法充当长期记忆。第 2 部分 解释了 为什么 大多数现有替代方案仍然不足。只有在这种框架下,审视 Titans 作为不同记忆系统的具体实现才有意义。

在真实应用中需要关注的要点

  • Memory structure: 系统是否提供了足够丰富的表示以完成任务?
  • Attentional bias: 相似度度量是否适用于数据分布?
  • Retention policy: 遗忘是否受到控制,还是在上下文溢出时无意中发生?
  • Update rule: 模型能否在推理期间调整其记忆,还是在训练后被冻结?

将这四个调节项牢记在心,有助于您在生产环境中诊断并提升长上下文性能。

含义

如果你将 MIRAS 视角应用于真实系统,模式会很快显现。当记忆结构过于僵化、保留未受控制,或即使输入变化更新规则仍被冻结时,模型会失效。相反,当记忆设计有意且与任务需求对齐时,系统会更具鲁棒性。

这种观点尤其适用于代理、流式数据、长期运行的进程,以及任何模型必须连续运行而非在孤立提示中工作的应用。

展望第 3 部分

第 2 部分奠定了概念基础。在第 3 部分,我们将深入研究 Titans 的架构,看看它如何在实践中实现这些记忆原则。我们将检查长期记忆是如何表示的、在推理过程中如何更新,以及如何通过遗忘机制保持系统的稳定性。

Back to Blog

相关文章

阅读更多 »