理解 Transformers 第8部分:自注意力中的共享权重

发布: (2026年4月17日 GMT+8 05:08)
2 分钟阅读
原文: Dev.to

Source: Dev.to

Cover image for Understanding Transformers Part 8: Shared Weights in Self-Attention

计算 “go” 的自注意力

上一篇文章中,我们已经开始计算自注意力值。

现在我们来计算单词 “go” 的自注意力值。

我们不需要重新计算 键(keys)值(values)
只需要为单词 “go” 创建 查询(query),然后像之前一样进行相同的计算。

Self‑attention calculation for “go”

完成计算后,得到 “go” 的自注意力值为:

2.5 和 -2.1

关于自注意力的关键观察

  • 用于计算 查询权重“Let’s”“go” 是相同的。
    这意味着无论句子中有多少单词,使用的都是 同一套共享权重
  • 同一套权重也会被重复用于计算每个输入单词的 键(keys)值(values)
  • 不管输入的单词数量多少,Transformer 都会复用相同的查询、键、值权重。
  • 查询、键、值 不需要 按顺序逐个计算;它们可以 同时计算,从而让 Transformer 能够利用 并行计算,实现高效运行。

我们将在下一篇文章中继续一步步构建我们的 Transformer。

0 浏览
Back to Blog

相关文章

阅读更多 »