Transformers 이해하기 파트 12: Decoder Layers 구축

발행: (2026년 4월 24일 AM 04:23 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

Adding Positional Encoding in the Decoder

디코더에서는 포지셔널 인코딩을 추가합니다. 이는 인코더 입력에 사용했던 동일한 사인·코사인 곡선을 사용합니다.

Positional encoding curves

이 곡선들은 입력을 인코딩할 때 사용했던 것과 동일한 곡선입니다.

Applying Positional Values

“ 토큰은 첫 번째 위치에 있으며 두 개의 임베딩 차원을 가집니다. 우리는 곡선에서 해당 위치값을 가져옵니다:

  • 첫 번째 임베딩에 대한 위치값은 0입니다.
  • 두 번째 임베딩에 대한 위치값은 1입니다.

이 위치값들을 원래 임베딩에 더하면 다음과 같습니다:

EOS after positional encoding

결과는 2.70‑0.34이며, 이는 포지셔널 인코딩이 적용된 “ 토큰을 나타냅니다.

Adding Self‑Attention

다음으로 셀프‑어텐션 레이어를 삽입하여 디코더가 출력 토큰 간의 관계를 포착할 수 있게 합니다.

Self‑attention in decoder

“ 토큰에 대한 셀프‑어텐션 출력은 ‑2.8‑2.3입니다.
디코더의 셀프‑어텐션에 사용되는 쿼리, 키, 값 가중치는 인코더에서 사용되는 것과 별개임을 유의하세요.

Adding Residual Connections

인코더와 마찬가지로, 이제 셀프‑어텐션 서브‑레이어 주위에 잔차 연결을 추가합니다.

Residual connections in decoder

What’s Next?

지금까지 셀프‑어텐션이 트랜스포머가 출력 문장 내부의 관계를 이해하도록 하는 방식을 살펴보았습니다.
번역과 같은 작업에서는 모델이 입력 문장과 출력 문장 사이의 관계도 포착해야 합니다. 다음 글에서는 이 크로스‑어텐션 메커니즘을 탐구할 것입니다.

0 조회
Back to Blog

관련 글

더 보기 »

Tokenmaxxing 논쟁은 요점을 놓치고 있다

Jensen Huang는 모든 엔지니어가 매일 100,000 토큰을 소비해야 한다고 말합니다. Shopify의 CTO는 실제 지표는 토큰을 어떻게 활용하느냐라고 말합니다. 두 사람 모두 옳습니다. 두 사람 모두 …