理解 Transformers 第8部分：自注意力中的共享权重

发布: 3周前 (2026年4月17日 GMT+8 05:08)

2 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Understanding Transformers Part 8: Shared Weights in Self-Attention

计算 “go” 的自注意力

在上一篇文章中，我们已经开始计算自注意力值。

现在我们来计算单词 “go” 的自注意力值。

我们不需要重新计算 键（keys） 和 值（values）。
只需要为单词 “go” 创建 查询（query），然后像之前一样进行相同的计算。

Self‑attention calculation for “go”

完成计算后，得到 “go” 的自注意力值为：

2.5 和 -2.1

关于自注意力的关键观察

用于计算查询的权重对 “Let’s” 和 “go” 是相同的。
这意味着无论句子中有多少单词，使用的都是 同一套共享权重。
同一套权重也会被重复用于计算每个输入单词的 键（keys） 和 值（values）。
不管输入的单词数量多少，Transformer 都会复用相同的查询、键、值权重。
查询、键、值 不需要 按顺序逐个计算；它们可以 同时计算，从而让 Transformer 能够利用 并行计算，实现高效运行。

我们将在下一篇文章中继续一步步构建我们的 Transformer。

相关文章

阅读更多 »

Qwen3.6-Max-Preview：更智能、更锐利，仍在进化

请提供您希望翻译的具体摘录或摘要文本，我才能为您进行简体中文翻译。

[Paper] 学习具备洞察的推理用于非形式定理证明

虽然大多数 automated theorem‑proving 方法依赖于 formal proof systems，informal theorem proving 可以更好地与 large language models 的 …

[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

本文探讨了大型语言模型（LLMs）对不同礼貌程度和不礼貌程度的用户提示的响应。礼貌理论由...

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

随着 AI-assisted video creation 越来越实用，instruction-guided video editing 已成为细化生成或捕获的 footage 的关键。