Mamba-2 vs Griffin vs RWKV-6: SSM 아키텍처 벤치마크

발행: 2개월 전 (2026년 2월 15일 오전 06:34 GMT+9)

2 분 소요

원문: Dev.to

Source: Dev.to

Attention의 이차 복잡도 — 시퀀스 길이 $n$에 대해 $O(n^2)$ — 은 컨텍스트 윈도우가 128 k 토큰에 도달하자마자 이론적인 것이 아니라 실제 문제가 되었습니다. State Space Models (SSMs)은 품질을 희생하지 않으면서 $O(n)$ 복잡도를 약속하지만, 2026년 현재는 Mamba‑2, Griffin, 그리고 RWKV‑6 세 가지 아키텍처가 주도하고 있습니다.

저는 동일한 1.3 B 파라미터 예산으로 세 모델을 모두 벤치마크했습니다. 그 결과는 제가 갖고 있던 attention 대안에 대한 기존 생각을 뒤흔들었습니다.

흰 배경에 세 개의 노란 고무 오리와 함께 놓인 Seagate FireCuda SSD 클로즈업 사진.
사진 제공: Andrey Matveev – Pexels

SSM이 Transformer와 다른 점

Transformer는 모든 토큰 쌍 사이의 attention 점수를 계산합니다. 10 k 토큰 시퀀스라면 1억 개의 비교가 필요합니다. 반면 SSM은 고정 크기의 숨겨진 상태를 유지하면서 순차적으로 업데이트합니다:

$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$

$$ y_t = C,h_t $$

행렬 $\bar{A}, \bar{B}, C$는 학습되지만, $h_t$는 시퀀스 길이에 따라 커지지 않습니다. 10 토큰을 처리하든 100 k 토큰을 처리하든 메모리 사용량은 동일합니다.

전체 기사 읽기 – TildAlice

Mamba-2 vs Griffin vs RWKV-6: SSM 아키텍처 벤치마크

SSM이 Transformer와 다른 점

관련 글

OpenEnv 실전: 실제 환경에서 도구 사용 에이전트 평가

Show HN: 스캔된 1927-1945년 일일 USFS 작업 일지

‘Agent Skills’가 AI 생산성의 비밀 소스일까?

AI가 계속 잊어버릴 때: LLM 워크플로가 붕괴되는 이유와 대신 구축해야 할 것