[Paper] 희소하게 게이트된 소형 선형 전문가

발행: 5일 전 (2026년 6월 6일 AM 01:06 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.07414v1

개요

희소성(sparsity)은 모델 파라미터를 늘려도 계산 비용을 비례적으로 증가시키지 않게 해줍니다. 전문가 혼합(MoE) 모델은 점점 더 희소해지고 있지만, 개별 전문가들은 보통 크고 밀집된 상태를 유지합니다. 여기서는 각 전문가를 단일 뉴런으로 축소하고, 많은 후보 뉴런 중 아주 작은 비율만을 선택함으로써 희소성을 더욱 높이면 계산 효율성과 해석 가능성을 동시에 향상시킬 수 있음을 보여줍니다. 역설적으로, 이를 달성하기 위한 핵심은 전문가에 일반적으로 적용되는 비선형성을 제거하고, 희소하게 게이트된 선형 뉴런(sgatlin) 네트워크를 구성하는 것입니다. 동일 플롭(isoflop) 비교에서, 모든 트랜스포머 피드포워드 레이어를 sgatlin으로 교체하면 다양한 계산 예산 하에서 언어 모델의 퍼플렉시티(perplexity)가 개선되는 것을 확인했습니다. 동시에, 결과 피드포워드 회로의 희소성과 선형성은 모델 해석에 새로운 가능성을 제공합니다. 소규모 사례 연구에서는 sgatlin의 피드포워드 회로를 추가 대체 모델을 학습하지 않고도 해석할 수 있음을 보여줍니다. 우리는 이 회로들이 의미론적으로 구조화된 클러스터를 형성하고, 사실 회상(factual recall)에 인과적으로 관여한다는 것을 발견했습니다. 우리의 결과는 계산 효율적이며 해석 가능한 트랜스포머 피드포워드 레이어를 향한 가능한 경로를 제시합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG
cs.NE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Simon Schug

논문 정보

arXiv ID: 2606.07414v1
분류: cs.LG, cs.NE
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[Paper] 희소하게 게이트된 소형 선형 전문가

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법