Attention 메커니즘 이해 – 파트 3: Cosine Similarity에서 Dot Product까지

발행: 1개월 전 (2026년 3월 29일 오전 06:55 GMT+9)

2 분 소요

원문: Dev.to

Source: Dev.to

Cover image for Understanding Attention Mechanisms – Part 3: From Cosine Similarity to Dot Product

Recap

이전 기사에서 인코더와 디코더 출력값을 비교했습니다. 여기서는 그 이면에 있는 수학을 살펴보고 어떻게 단순화될 수 있는지 보여줍니다.

인코더의 두 LSTM 셀에서 “Let’s” 라는 단어에 대한 출력값은 -0.76 과 0.75 입니다.
디코더의 두 LSTM 셀에서 “ 토큰에 대한 출력값은 0.91 과 0.38 입니다.

이를 다음과 같이 나타낼 수 있습니다:

Encoder (A)   Decoder (B)
-0.76          0.91
 0.75          0.38

이 값을 코사인 유사도 식에 대입하면 -0.39 라는 결과가 나옵니다.

Cosine similarity formula

일반적인 단순화 방법은 코사인 유사도의 분자만, 즉 내적만을 계산하는 것입니다.
분모는 값을 -1과 1 사이로 스케일링할 뿐이므로, 차원(셀 수)이 고정돼 있을 때 이를 무시해도 대체로 허용됩니다.

위 벡터들의 내적은 다음과 같습니다:

(-0.76 × 0.91) + (0.75 × 0.38) = -0.41

Dot product illustration

다음 기사에서 이를 더 자세히 살펴볼 예정입니다.

툴, 라이브러리, 혹은 전체 레포지토리를 더 쉽게 설치하고 싶으신가요? Installerpedia를 사용해 보세요. 커뮤니티가 주도하는 구조화된 설치 플랫폼입니다.

ipm install repo-name

Installerpedia Screenshot