EUNO.NEWS EUNO.NEWS
  • All (2342) +197
  • AI (544) +17
  • DevOps (139) +1
  • Software (984) +123
  • IT (669) +55
  • Education (5) +1
  • Notice (1)
  • All (2342) +197
    • AI (544) +17
    • DevOps (139) +1
    • Software (984) +123
    • IT (669) +55
    • Education (5) +1
  • Notice (1)
  • All (2342) +197
  • AI (544) +17
  • DevOps (139) +1
  • Software (984) +123
  • IT (669) +55
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    [Paper] Attention logits의 변화를 제어하기

    신경망 가중치의 안정성은 트랜스포머 모델을 훈련할 때 매우 중요합니다. 쿼리와 키 가중치는 특히 문제가 되는데, 이들은 성장하는 경향이 있습니다.

    #attention #transformer training #learning rate scaling #model stability #research paper
EUNO.NEWS
RSS GitHub © 2025