Transformers에서 Multi-Head Attention 이해하기

발행: (2026년 5월 4일 AM 05:08 GMT+9)
4 분 소요
원문: Dev.to

Source: Dev.to

멀티‑헤드 어텐션 개요

셀프‑어텐션은 Query, Key, Value 벡터를 사용해 변환기가 단어들 사이의 관계를 포착하도록 합니다. 그러나 단일 어텐션 헤드는 한 번에 하나의 관계 유형에만 집중하는 경향이 있으며, 자연 언어는 종종 여러 층의 구조, 의미 및 장거리 의존성을 동시에 포함합니다.

멀티‑헤드 어텐션은 여러 번을 병렬로 어텐션 메커니즘을 적용함으로써 이를 해결합니다. 각 병렬 실행을 헤드라고 부르며, 각 헤드는 Query, Key, Value에 대한 자체 학습 가중치를 갖습니다. 따라서 모든 헤드는 같은 문장을 자신만의 관점에서 살펴봅니다.

작동 원리

  1. 입력 임베딩 준비 – 토큰 임베딩(및 위치 인코딩)은 평소와 같이 생성됩니다.
  2. 헤드로 분할 – 선형 투영 레이어가 임베딩을 h개의 별도 서브‑스페이스로 매핑하여 각 헤드에 할당합니다.
  3. 헤드별 셀프‑어텐션 – 각 헤드는 독립적으로 어텐션 스코어와 가중합을 계산합니다.
  4. 헤드 출력 – 각 헤드는 자체 출력 표현을 생성합니다.
  5. 연결(concatenate) – 모든 헤드의 출력이 특성 차원에서 연결됩니다.
  6. 최종 선형 레이어 – 최종 투영이 연결된 벡터들을 섞어 다음 트랜스포머 블록을 위한 단일 출력으로 만듭니다.

서로 다른 헤드가 포착하는 내용

  • 단어 순서와 문법 – 구문 패턴 및 위치 관계.
  • 인접 단어 관계 – 연어와 같은 지역 의존성.
  • 장거리 연결 – 시퀀스 내에서 멀리 떨어진 단어들 간의 연결.
  • 의미/의도 기반 연결 – 문맥적 유사성 및 주제 일관성.

비유

단일 헤드를 특정 초점을 가지고 문장을 읽는 것으로 생각해 보세요. 멀티‑헤드 어텐션은 같은 문장을 여러 번 읽으며 매번 다른 측면을 포착하고, 그 관찰들을 결합해 더 풍부한 전체 이해를 만드는 과정과 같습니다.

이러한 병렬 처리는 모델이 하나의 어텐션 메커니즘에 모든 관계 유형을 강요하지 않고도 언어를 여러 각도에서 동시에 파악하도록 합니다.

0 조회
Back to Blog

관련 글

더 보기 »

Sierra, $15B 가치에 $950M 조달

우리는 신규 및 기존 투자자들로부터 9억 5천만 달러를 모금하고 있으며, Tiger Global(https://www.tigerglobal.com/)과 GV(https://www.gv.com/)가 주도하고 있습니다. 기업 가치는 $1... 이상입니다.