Transformers 이해하기 파트 8: Self‑Attention에서 공유 가중치

발행: 3주 전 (2026년 4월 17일 AM 06:08 GMT+9)

2 분 소요

원문: Dev.to

Source: Dev.to

Cover image for Understanding Transformers Part 8: Shared Weights in Self-Attention

“go”에 대한 Self‑Attention 계산

이전 기사에서 self‑attention 값을 계산하기 시작했습니다.

이제 “go” 라는 단어에 대한 self‑attention 값을 계산해 보겠습니다.

keys와 values는 다시 계산할 필요가 없습니다.
대신 “go” 를 나타내는 query 를 만들고, 이전과 동일한 계산을 수행하면 됩니다.

Self‑attention calculation for “go”

계산을 마치면 “go” 에 대한 self‑attention 값은 다음과 같습니다.

2.5와 -2.1

“Let’s” 와 “go” 모두에 사용되는 queries 를 계산하는 weights 가 동일합니다.
이는 단어 수와 관계없이 하나의 공유된 가중치 집합을 사용한다는 의미입니다.
같은 가중치 집합이 모든 입력 단어에 대해 keys 와 values 를 계산하는 데 재사용됩니다.
입력으로 주어지는 단어 수에 관계없이 트랜스포머는 queries, keys, values 에 대해 동일한 가중치를 재사용합니다.
Queries, keys, values 는 순차적으로 계산될 필요가 없으며, 동시에 계산될 수 있어 트랜스포머가 병렬 연산을 활용하고 매우 효율적으로 동작할 수 있습니다.

다음 기사에서는 트랜스포머를 단계별로 계속 구축해 나갈 것입니다.