[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지
개요
Transformer는 현대 시퀀스 모델링을 장악하고 있지만, 그 이차원(attention) 연산은 상당한 계산 비용을 초래합니다. 서브이차원 구조는 확장 가능한 대안을 제공합니다. 그러나 어떤 설계가 가장 효과적인 시퀀스 모델을 만드는지는 아직 명확하지 않습니다. 우리는 세 가지 주요 접근법인 xLSTM, Mamba-2, 그리고 Gated DeltaNet을 비교합니다. 복잡한 의존성을 가진 작업들, 즉 (1) 코드 모델 사전학습, (2) 대형 언어 모델로부터 코드 모델을 증류(distillation)하는 작업, (3) 시계열 기반 모델의 사전학습에 대해 이들 모델을 평가합니다. 모든 설정에서 xLSTM이 가장 강력한 전반적 성능을 보여줍니다. xLSTM의 우위를 설명하기 위해 우리는 통합된 수식화를 제시하고, 상태 추적(state tracking)과 메모리 역학(memory dynamics)에 초점을 맞춘 구조적 메커니즘을 분석합니다. 우리의 결과는 xLSTM이 게이팅 스킴을 통해 보다 유연하고 안정적인 메모리 보정(memory correction)을 가능하게 함을 보여줍니다. 이러한 발견은 제어된 합성 길이 일반화(synthetic length‑generalization) 작업에서도 확인되었습니다. 전반적으로, 복잡한 작업에서 xLSTM의 성능 향상은 견고한 상태 추적 및 누적 메커니즘에 기인합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Anamaria-Roberta Hartl
- Levente Zólyomi
- David Stap
- Pieter-Jan Hoedt
- Niklas Schmidinger
- Lukas Hauzenberger
- Sebastian Böck
- Günter Klambauer
- Sepp Hochreiter
논문 정보
- arXiv ID: 2606.12364v1
- 분류: cs.LG
- 발표일: 2026년 6월 10일
- PDF: PDF 다운로드