Transformers 이해하기 파트 8: Self-Attention에서의 공유 가중치
Source: Dev.to

“go”에 대한 Self‑Attention 계산
이전 기사에서 우리는 self‑attention 값을 계산하기 시작했습니다.
이제 “go” 라는 단어에 대한 self‑attention 값을 계산해 보겠습니다.
**키(key)**와 값(value) 를 다시 계산할 필요는 없습니다.
대신 “go” 를 나타내는 쿼리(query) 를 만들고, 이전과 동일한 계산을 수행하면 됩니다.

계산을 마치면 “go” 에 대한 self‑attention 값은 다음과 같습니다.
2.5와 -2.1
Self‑Attention에 대한 주요 관찰점
-
쿼리를 계산할 때 사용되는 가중치는 **“Let’s”**와 “go” 모두에 동일합니다.
이는 단어 수와 관계없이 하나의 공유 가중치 집합을 사용한다는 의미입니다. -
같은 가중치 집합이 **키(key)**와 값(value) 를 계산할 때도 재사용됩니다.
-
입력으로 주어지는 단어 수가 얼마이든, 트랜스포머는 쿼리, 키, 값에 대해 동일한 가중치를 재사용합니다.
-
쿼리, 키, 값은 순차적으로 계산될 필요가 없으며 동시에 계산될 수 있어, 트랜스포머가 병렬 연산을 활용해 매우 효율적으로 동작합니다.
다음 기사에서는 트랜스포머를 단계별로 계속 구축해 나갈 것입니다.