1주 전 · ai [Paper] Attention logits의 변화를 제어하기 신경망 가중치의 안정성은 트랜스포머 모델을 훈련할 때 매우 중요합니다. 쿼리와 키 가중치는 특히 문제가 되는데, 이들은 성장하는 경향이 있습니다.