[Paper] MDN: 델타 선형 어텐션을 위한 단계별 모멘텀 병렬화

발행: 4일 전 (2026년 5월 7일 PM 05:12 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.05838v1

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 함께 알려주시면 한국어로 번역해 드리겠습니다.

개요

Linear‑attention (LA) 모델은 고전적인 자체‑주의의 2차 비용 없이도 대형 언어 모델(LLM)을 훨씬 더 긴 컨텍스트로 확장하는 대표적인 방법이 되었습니다. 새로운 Momentum DeltaNet (MDN) 논문에서는 LA 재귀에 단계별 모멘텀 항을 주입하여 이를 병렬로 평가할 수 있는 안정적인 2차 동적 시스템으로 전환하는 방법을 제시합니다. 저자들은 빠른 Triton 커널을 사용해 이론을 뒷받침하고, 다양한 다운스트림 작업에서 400 M‑ 및 1.3 B‑파라미터 모델에 걸쳐 일관된 정확도 향상을 입증했습니다.

주요 기여

Stepwise momentum rule: LA 업데이트 계수를 재배열하여 모멘텀 항을 선형‑시간 재귀를 깨뜨리지 않고 적용할 수 있게 함.
Chunkwise parallel algorithm: 시퀀스를 청크로 나누어 각 청크를 병렬로 처리하고, 모멘텀‑보강 재귀와 함께 결과를 결합함.
Dynamical‑systems analysis: 모멘텀 재귀가 복소‑켤레 고유값을 갖는 2차 시스템처럼 동작함을 보여주며, 안정성을 보장하는 원칙적인 게이팅 설계를 제시함.
High‑performance Triton kernels: GPU에서 커스텀 커널을 사용해 알고리즘을 구현하며, Mamba‑2 및 K‑DAN과 같은 최신 LA 모델의 처리량과 동등하거나 초과함.
Empirical validation: 다양한 벤치마크(언어 모델링, 추론, 코드 생성)에서 MDN이 Transformers, Mamba‑2, GDN을 지속적으로 능가하면서도 학습 속도를 비슷하게 유지함.

방법론

Linear recurrence as SGD: Prior work rewrites the LA update as an online SGD step:

[ h_t = A_t h_{t-1} + B_t x_t ]

where (A_t) and (B_t) are learned linear maps.
Adding momentum: The authors introduce a momentum vector (m_t) that accumulates past gradients:

[ m_t = \beta m_{t-1} + (1-\beta) \nabla_t,\qquad h_t = A_t h_{t-1} + B_t x_t + \gamma m_t ]

The key insight is to geometrically reorder the coefficients so that the momentum term can be folded into the same linear‑time recurrence.
Chunkwise parallelism: The sequence is divided into (K) chunks. Within each chunk the recurrence is computed sequentially (still linear‑time), but the chunks are processed simultaneously on separate GPU threads. A lightweight “prefix‑sum” style pass stitches the chunk boundaries together, preserving the momentum state across chunks.
Stability via eigenvalue control: By treating the recurrence as a second‑order linear system, the authors derive conditions on the gating functions (the analog of activation functions for (A_t) and (B_t)) that keep the eigenvalues inside the unit circle, preventing exploding or vanishing signals.
Implementation: Custom Triton kernels handle the matrix‑vector multiplications, gating, and the momentum accumulation in a single fused operation, minimizing memory traffic and kernel launch overhead.

결과 및 발견

모델 (params)	처리량 (tokens/s)	평균 GLUE 점수 ↑	LAMBADA ppl ↓
Transformer‑base	12.3	78.4	23.1
Mamba‑2 (400 M)	15.8	80.1	21.7
GDN (400 M)	15.5	80.3	21.5
MDN (400 M)	15.7	81.6	20.9
Mamba‑2 (1.3 B)	9.2	82.7	19.8
GDN (1.3 B)	9.0	83.0	19.5
MDN (1.3 B)	9.1	84.3	18.9

학습 속도: MDN의 Triton 커널은 추가적인 모멘텀 기록에도 불구하고 가장 빠른 LA 베이스라인 대비 토큰당 처리량을 1‑2 % 이내로 유지합니다.
정확도 향상: 언어 모델링(퍼플렉시티), 추론(GLUE, SuperGLUE), 장기 컨텍스트 작업(LAMBADA, PG‑19) 전반에 걸쳐 MDN은 가장 강력한 LA 경쟁자보다 절대 0.8‑1.5 %의 향상을 지속적으로 제공합니다.
확장성: 청크 단위 병렬성은 GPU SM 수에 따라 선형적으로 확장되어 MDN을 단일 GPU 연구 실행 및 다중 GPU 생산 학습 모두에 적합하게 만듭니다.

실용적 시사점

Long‑context LLMs가 더 신뢰성 있게 된다: 챗봇, 코드 어시스턴트, 혹은 검색 기반 생성(RAG)을 구축하는 개발자들은 이제 8 k 토큰을 초과하는 컨텍스트 윈도우를 이차 비용 없이 사용할 수 있으며, 여전히 약간의 정확도 향상을 얻을 수 있다.
기존 LA 스택에 대한 즉시 교체 가능: MDN은 Mamba‑2/GDN과 동일한 API(동일한 입력‑출력 형태, 동일한 학습 루프)를 유지하므로, 기존 파이프라인은 모델 클래스를 교체하고 Triton 커널을 다시 컴파일함으로써 적용할 수 있다.
GPU 효율적인 학습: 결합된 커널은 메모리 대역폭 압력을 감소시켜, 대규모 사전 학습 시 클라우드 GPU 비용을 낮춘다.
다운스트림 파인튜닝 가능성: 모멘텀 항이 그래디언트 흐름을 개선하여, 작은 데이터셋에 대한 파인튜닝을 더 안정적으로 만들 수 있다—특정 도메인 LLM(예: 의료, 법률)에 유용하다.
오픈소스 제공: 저자들은 Triton 커널과 학습 스크립트를 공개하여, 커뮤니티가 MDN을 실험, 벤치마크, Hugging Face Transformers나 PyTorch Lightning 같은 프레임워크에 통합할 수 있게 한다.

Limitations & Future Work

Chunk size sensitivity: 매우 작은 청크는 커널 실행 오버헤드를 증가시키고, 매우 큰 청크는 병렬성을 감소시킵니다; 최적의 지점을 찾기 위해서는 하드웨어 구성마다 경험적 튜닝이 여전히 필요합니다.
Stability constraints are derived for the specific gating design used; extending MDN to other non‑linearities (e.g., Swish, GELU) may need additional analysis.
Memory footprint: 시퀀스 길이에 선형적으로 증가하지만, 모멘텀 버퍼가 추가적인 은닉 상태 복사를 요구하므로 메모리 제한이 있는 GPU에서 초장기 (>64 k) 시퀀스에 대해 눈에 띄게 될 수 있습니다.
Future directions suggested by the authors:
1. 레이어마다 (\beta)를 변동시키는 적응형 모멘텀 스케줄,
2. 더 긴 컨텍스트를 위한 희소‑어텐션 또는 검색 메커니즘과의 통합,
3. Triton을 넘어선 하드웨어‑특화 최적화 탐색 (예: CUDA‑graph 또는 TensorRT 배포).

저자

Yulong Huang
Xiang Liu
Hongxiang Huang
Xiaopeng Lin
Zunchang Liu
Xiaowen Chu
Zeke Xie
Bojun Cheng

논문 정보

arXiv ID: 2605.05838v1
분류: cs.LG, cs.NE
출판일: 2026년 5월 7일
PDF: PDF 다운로드

[Paper] MDN: 델타 선형 어텐션을 위한 단계별 모멘텀 병렬화

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] 제로샷 상상 음성 디코딩 via 상상-청취 MEG 매핑

[Paper] GRAPHLCP: 구조 인식 그래프에 대한 지역화된 컨포멀 예측

[Paper] VecCISC: 추론 트레이스 클러스터링 및 후보 답변 선택을 통한 신뢰도 기반 자체 일관성 향상