理解 Transformers 第8部分:自注意力中的共享权重
发布: (2026年4月17日 GMT+8 05:08)
2 分钟阅读
原文: Dev.to
Source: Dev.to

计算 “go” 的自注意力
在上一篇文章中,我们已经开始计算自注意力值。
现在我们来计算单词 “go” 的自注意力值。
我们不需要重新计算 键(keys) 和 值(values)。
只需要为单词 “go” 创建 查询(query),然后像之前一样进行相同的计算。

完成计算后,得到 “go” 的自注意力值为:
2.5 和 -2.1
关于自注意力的关键观察
- 用于计算 查询 的 权重 对 “Let’s” 和 “go” 是相同的。
这意味着无论句子中有多少单词,使用的都是 同一套共享权重。 - 同一套权重也会被重复用于计算每个输入单词的 键(keys) 和 值(values)。
- 不管输入的单词数量多少,Transformer 都会复用相同的查询、键、值权重。
- 查询、键、值 不需要 按顺序逐个计算;它们可以 同时计算,从而让 Transformer 能够利用 并行计算,实现高效运行。
我们将在下一篇文章中继续一步步构建我们的 Transformer。