Attention 메커니즘 이해 – 파트 3: Cosine Similarity에서 Dot Product까지
Source: Dev.to

Recap
이전 기사에서 인코더와 디코더 출력값을 비교했습니다. 여기서는 그 이면에 있는 수학을 살펴보고 어떻게 단순화될 수 있는지 보여줍니다.
인코더의 두 LSTM 셀에서 “Let’s” 라는 단어에 대한 출력값은 -0.76 과 0.75 입니다.
디코더의 두 LSTM 셀에서 “ 토큰에 대한 출력값은 0.91 과 0.38 입니다.
이를 다음과 같이 나타낼 수 있습니다:
Encoder (A) Decoder (B)
-0.76 0.91
0.75 0.38
Cosine Similarity
이 값을 코사인 유사도 식에 대입하면 -0.39 라는 결과가 나옵니다.

Dot Product Approximation
일반적인 단순화 방법은 코사인 유사도의 분자만, 즉 내적만을 계산하는 것입니다.
분모는 값을 -1과 1 사이로 스케일링할 뿐이므로, 차원(셀 수)이 고정돼 있을 때 이를 무시해도 대체로 허용됩니다.
위 벡터들의 내적은 다음과 같습니다:
(-0.76 × 0.91) + (0.75 × 0.38) = -0.41

다음 기사에서 이를 더 자세히 살펴볼 예정입니다.
Installerpedia (optional tool)
툴, 라이브러리, 혹은 전체 레포지토리를 더 쉽게 설치하고 싶으신가요? Installerpedia를 사용해 보세요. 커뮤니티가 주도하는 구조화된 설치 플랫폼입니다.
ipm install repo-name
