理解注意力机制 – 第3部分:从余弦相似度到点积
发布: (2026年3月29日 GMT+8 05:55)
2 分钟阅读
原文: Dev.to
Source: Dev.to

回顾
在上一篇文章中,我们比较了编码器和解码器的输出。这里我们检查其背后的数学并展示如何简化。
编码器中对应单词 “Let’s” 的两个 LSTM 单元的输出值分别为 -0.76 和 0.75。
解码器中对应 “ 标记的两个 LSTM 单元的输出值为 0.91 和 0.38。
我们可以将它们表示为:
Encoder (A) Decoder (B)
-0.76 0.91
0.75 0.38余弦相似度
将这些数值代入余弦相似度公式,得到的结果是 -0.39。

点积近似
一种常见的简化方法是仅计算余弦相似度的分子,即点积。
分母只是在 -1 到 1 之间对数值进行缩放,因此在维度(单元数量)固定的情况下,忽略它通常是可以接受的。
上述向量的点积为:
(-0.76 × 0.91) + (0.75 × 0.38) = -0.41
我们将在下一篇文章中进一步探讨此内容。
Installerpedia(可选工具)
想要更轻松地安装工具、库或整个仓库吗?试试 Installerpedia,一个社区驱动、结构化的安装平台。
ipm install repo-name