Mamba-2 vs Griffin vs RWKV-6: SSM 아키텍처 벤치마크
Source: Dev.to
Attention의 이차 복잡도 — 시퀀스 길이 $n$에 대해 $O(n^2)$ — 은 컨텍스트 윈도우가 128 k 토큰에 도달하자마자 이론적인 것이 아니라 실제 문제가 되었습니다. State Space Models (SSMs)은 품질을 희생하지 않으면서 $O(n)$ 복잡도를 약속하지만, 2026년 현재는 Mamba‑2, Griffin, 그리고 RWKV‑6 세 가지 아키텍처가 주도하고 있습니다.
저는 동일한 1.3 B 파라미터 예산으로 세 모델을 모두 벤치마크했습니다. 그 결과는 제가 갖고 있던 attention 대안에 대한 기존 생각을 뒤흔들었습니다.

사진 제공: Andrey Matveev – Pexels
SSM이 Transformer와 다른 점
Transformer는 모든 토큰 쌍 사이의 attention 점수를 계산합니다. 10 k 토큰 시퀀스라면 1억 개의 비교가 필요합니다. 반면 SSM은 고정 크기의 숨겨진 상태를 유지하면서 순차적으로 업데이트합니다:
$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$
$$ y_t = C,h_t $$
행렬 $\bar{A}, \bar{B}, C$는 학습되지만, $h_t$는 시퀀스 길이에 따라 커지지 않습니다. 10 토큰을 처리하든 100 k 토큰을 처리하든 메모리 사용량은 동일합니다.