[Paper] MDN: 델타 선형 어텐션을 위한 단계별 모멘텀 병렬화

발행: (2026년 5월 7일 PM 05:12 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.05838v1

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 함께 알려주시면 한국어로 번역해 드리겠습니다.

개요

Linear‑attention (LA) 모델은 고전적인 자체‑주의의 2차 비용 없이도 대형 언어 모델(LLM)을 훨씬 더 긴 컨텍스트로 확장하는 대표적인 방법이 되었습니다. 새로운 Momentum DeltaNet (MDN) 논문에서는 LA 재귀에 단계별 모멘텀 항을 주입하여 이를 병렬로 평가할 수 있는 안정적인 2차 동적 시스템으로 전환하는 방법을 제시합니다. 저자들은 빠른 Triton 커널을 사용해 이론을 뒷받침하고, 다양한 다운스트림 작업에서 400 M‑ 및 1.3 B‑파라미터 모델에 걸쳐 일관된 정확도 향상을 입증했습니다.

주요 기여

  • Stepwise momentum rule: LA 업데이트 계수를 재배열하여 모멘텀 항을 선형‑시간 재귀를 깨뜨리지 않고 적용할 수 있게 함.
  • Chunkwise parallel algorithm: 시퀀스를 청크로 나누어 각 청크를 병렬로 처리하고, 모멘텀‑보강 재귀와 함께 결과를 결합함.
  • Dynamical‑systems analysis: 모멘텀 재귀가 복소‑켤레 고유값을 갖는 2차 시스템처럼 동작함을 보여주며, 안정성을 보장하는 원칙적인 게이팅 설계를 제시함.
  • High‑performance Triton kernels: GPU에서 커스텀 커널을 사용해 알고리즘을 구현하며, Mamba‑2 및 K‑DAN과 같은 최신 LA 모델의 처리량과 동등하거나 초과함.
  • Empirical validation: 다양한 벤치마크(언어 모델링, 추론, 코드 생성)에서 MDN이 Transformers, Mamba‑2, GDN을 지속적으로 능가하면서도 학습 속도를 비슷하게 유지함.

방법론

  1. Linear recurrence as SGD: Prior work rewrites the LA update as an online SGD step:

    [ h_t = A_t h_{t-1} + B_t x_t ]

    where (A_t) and (B_t) are learned linear maps.

  2. Adding momentum: The authors introduce a momentum vector (m_t) that accumulates past gradients:

    [ m_t = \beta m_{t-1} + (1-\beta) \nabla_t,\qquad h_t = A_t h_{t-1} + B_t x_t + \gamma m_t ]

    The key insight is to geometrically reorder the coefficients so that the momentum term can be folded into the same linear‑time recurrence.

  3. Chunkwise parallelism: The sequence is divided into (K) chunks. Within each chunk the recurrence is computed sequentially (still linear‑time), but the chunks are processed simultaneously on separate GPU threads. A lightweight “prefix‑sum” style pass stitches the chunk boundaries together, preserving the momentum state across chunks.

  4. Stability via eigenvalue control: By treating the recurrence as a second‑order linear system, the authors derive conditions on the gating functions (the analog of activation functions for (A_t) and (B_t)) that keep the eigenvalues inside the unit circle, preventing exploding or vanishing signals.

  5. Implementation: Custom Triton kernels handle the matrix‑vector multiplications, gating, and the momentum accumulation in a single fused operation, minimizing memory traffic and kernel launch overhead.

결과 및 발견

모델 (params)처리량 (tokens/s)평균 GLUE 점수 ↑LAMBADA ppl ↓
Transformer‑base12.378.423.1
Mamba‑2 (400 M)15.880.121.7
GDN (400 M)15.580.321.5
MDN (400 M)15.781.620.9
Mamba‑2 (1.3 B)9.282.719.8
GDN (1.3 B)9.083.019.5
MDN (1.3 B)9.184.318.9
  • 학습 속도: MDN의 Triton 커널은 추가적인 모멘텀 기록에도 불구하고 가장 빠른 LA 베이스라인 대비 토큰당 처리량을 1‑2 % 이내로 유지합니다.
  • 정확도 향상: 언어 모델링(퍼플렉시티), 추론(GLUE, SuperGLUE), 장기 컨텍스트 작업(LAMBADA, PG‑19) 전반에 걸쳐 MDN은 가장 강력한 LA 경쟁자보다 절대 0.8‑1.5 %의 향상을 지속적으로 제공합니다.
  • 확장성: 청크 단위 병렬성은 GPU SM 수에 따라 선형적으로 확장되어 MDN을 단일 GPU 연구 실행 및 다중 GPU 생산 학습 모두에 적합하게 만듭니다.

실용적 시사점

  • Long‑context LLMs가 더 신뢰성 있게 된다: 챗봇, 코드 어시스턴트, 혹은 검색 기반 생성(RAG)을 구축하는 개발자들은 이제 8 k 토큰을 초과하는 컨텍스트 윈도우를 이차 비용 없이 사용할 수 있으며, 여전히 약간의 정확도 향상을 얻을 수 있다.
  • 기존 LA 스택에 대한 즉시 교체 가능: MDN은 Mamba‑2/GDN과 동일한 API(동일한 입력‑출력 형태, 동일한 학습 루프)를 유지하므로, 기존 파이프라인은 모델 클래스를 교체하고 Triton 커널을 다시 컴파일함으로써 적용할 수 있다.
  • GPU 효율적인 학습: 결합된 커널은 메모리 대역폭 압력을 감소시켜, 대규모 사전 학습 시 클라우드 GPU 비용을 낮춘다.
  • 다운스트림 파인튜닝 가능성: 모멘텀 항이 그래디언트 흐름을 개선하여, 작은 데이터셋에 대한 파인튜닝을 더 안정적으로 만들 수 있다—특정 도메인 LLM(예: 의료, 법률)에 유용하다.
  • 오픈소스 제공: 저자들은 Triton 커널과 학습 스크립트를 공개하여, 커뮤니티가 MDN을 실험, 벤치마크, Hugging Face Transformers나 PyTorch Lightning 같은 프레임워크에 통합할 수 있게 한다.

Limitations & Future Work

  • Chunk size sensitivity: 매우 작은 청크는 커널 실행 오버헤드를 증가시키고, 매우 큰 청크는 병렬성을 감소시킵니다; 최적의 지점을 찾기 위해서는 하드웨어 구성마다 경험적 튜닝이 여전히 필요합니다.
  • Stability constraints are derived for the specific gating design used; extending MDN to other non‑linearities (e.g., Swish, GELU) may need additional analysis.
  • Memory footprint: 시퀀스 길이에 선형적으로 증가하지만, 모멘텀 버퍼가 추가적인 은닉 상태 복사를 요구하므로 메모리 제한이 있는 GPU에서 초장기 (>64 k) 시퀀스에 대해 눈에 띄게 될 수 있습니다.
  • Future directions suggested by the authors:
    1. 레이어마다 (\beta)를 변동시키는 적응형 모멘텀 스케줄,
    2. 더 긴 컨텍스트를 위한 희소‑어텐션 또는 검색 메커니즘과의 통합,
    3. Triton을 넘어선 하드웨어‑특화 최적화 탐색 (예: CUDA‑graph 또는 TensorRT 배포).

저자

  • Yulong Huang
  • Xiang Liu
  • Hongxiang Huang
  • Xiaopeng Lin
  • Zunchang Liu
  • Xiaowen Chu
  • Zeke Xie
  • Bojun Cheng

논문 정보

  • arXiv ID: 2605.05838v1
  • 분류: cs.LG, cs.NE
  • 출판일: 2026년 5월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 트래젝터리 모델 정규화

Diffusion 기반 모델은 샘플링을 많은 작은 Gaussian 디노이징 단계로 분해합니다 — 생성이 몇 개의 coar... 로 압축될 때 이 가정은 깨집니다.