보완적 어텐션 헤드 절삭으로 효율적인 트랜스포머

발행: 1일 전 (2026년 6월 17일 PM 11:56 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19150v1

개요

Transformer 기반 모델의 천문학적인 성공은 아키텍처 확장(대규모화)에서 비롯되며, 이는 파라미터 수가 많아져 자원 제한 환경에서는 배포가 어렵게 만든다. 구조적 절단(structured pruning)은 압축 경로를 제공하지만, 최신 방법들은 일반적으로 기울기 기반 중요도 순위 또는 확률적 게이팅(stochastic gating)에 의존하는데, 이는 불안정성, 구조적 퇴화, 그리고 광범위한 수동 하이퍼파라미터 튜닝이 필요한 문제를 야기한다. 본 논문에서는 CAHP(Complementary Attention Head Pruning)라는 새로운 사후(post‑hoc) 프레임워크를 제시한다. 이 프레임워크는 헤드 선택을 전역 그래프 이론적 문제로 재정의한다. 격리된 평가 대신, CAHP는 그래프 기반 클러스터링과 정보 이론적 거리 측정을 결합하여 보완적인 注意 헤드의 다양하고 토폴로직적으로 다양한 하위 집합을 식별하고 보존한다. 사전 정의된 희소성 수준이나 절단 비율을 필요로 하지 않으며, 프레임워크는 선택된 注意 헤드 수를 계층별로 자동으로 결정한다. 이는 성능 감소 곡선이 급격히 떨어지는 지점(선택한 다항식 차수에 따라)을 찾아냄으로써 이루어진다. SST‑5와 MNLI 벤치마크에 대한 다양한 Transformer 모델 규모에 걸친 광범위한 평가를 통해 CAHP는 경쟁 베이스라인을 일관되게 능가하며, 특히 고압축(고압축) 환경에서는 더욱 그렇다. 추가적으로, 구조적 분석을 통해 CAHP는 출력에 가까운 층에 주로 집중하는 기존 기울기 기반 절단 방법의 “근접 편향(proximity bias)”를 회피한다. 대신, 모델 중간층에 있는 핵심적인 注意 헤드 집합을 유지한다.

주요 공헌

본 논문은 다음 분야의 연구를 제시합니다:

cs.LG

방법론

자세한 방법은 논문 전체를 참고하십시오.

실용적 의미

본 연구는 cs.LG의 발전에 기여한다.

저자들

야니브 리버트스키
샤하르 소민
고넨 싱어

논문 정보

arXiv ID: 2606.19150v1
카테고리: cs.LG
발행일: 2026년 6월 17일
PDF: PDF 다운로드

보완적 어텐션 헤드 절삭으로 효율적인 트랜스포머

개요

주요 공헌

방법론

실용적 의미

저자들

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성