理解注意力机制 – 第3部分:从余弦相似度到点积

发布: (2026年3月29日 GMT+8 05:55)
2 分钟阅读
原文: Dev.to

Source: Dev.to

Cover image for Understanding Attention Mechanisms – Part 3: From Cosine Similarity to Dot Product

回顾

上一篇文章中,我们比较了编码器和解码器的输出。这里我们检查其背后的数学并展示如何简化。

编码器中对应单词 “Let’s” 的两个 LSTM 单元的输出值分别为 -0.760.75
解码器中对应 标记的两个 LSTM 单元的输出值为 0.910.38

我们可以将它们表示为:

Encoder (A)   Decoder (B)
-0.76          0.91
 0.75          0.38

余弦相似度

将这些数值代入余弦相似度公式,得到的结果是 -0.39

Cosine similarity formula

点积近似

一种常见的简化方法是仅计算余弦相似度的分子,即点积。
分母只是在 -1 到 1 之间对数值进行缩放,因此在维度(单元数量)固定的情况下,忽略它通常是可以接受的。

上述向量的点积为:

(-0.76 × 0.91) + (0.75 × 0.38) = -0.41

Dot product illustration

我们将在下一篇文章中进一步探讨此内容。

Installerpedia(可选工具)

想要更轻松地安装工具、库或整个仓库吗?试试 Installerpedia,一个社区驱动、结构化的安装平台。

ipm install repo-name

Installerpedia Screenshot

🔗 Explore Installerpedia here

0 浏览
Back to Blog

相关文章

阅读更多 »