Mamba-2 vs Griffin vs RWKV-6: SSM 아키텍처 벤치마크

발행: (2026년 2월 15일 오전 06:34 GMT+9)
2 분 소요
원문: Dev.to

Source: Dev.to

Attention의 이차 복잡도 — 시퀀스 길이 $n$에 대해 $O(n^2)$ — 은 컨텍스트 윈도우가 128 k 토큰에 도달하자마자 이론적인 것이 아니라 실제 문제가 되었습니다. State Space Models (SSMs)은 품질을 희생하지 않으면서 $O(n)$ 복잡도를 약속하지만, 2026년 현재는 Mamba‑2, Griffin, 그리고 RWKV‑6 세 가지 아키텍처가 주도하고 있습니다.

저는 동일한 1.3 B 파라미터 예산으로 세 모델을 모두 벤치마크했습니다. 그 결과는 제가 갖고 있던 attention 대안에 대한 기존 생각을 뒤흔들었습니다.

흰 배경에 세 개의 노란 고무 오리와 함께 놓인 Seagate FireCuda SSD 클로즈업 사진.
사진 제공: Andrey MatveevPexels

SSM이 Transformer와 다른 점

Transformer는 모든 토큰 쌍 사이의 attention 점수를 계산합니다. 10 k 토큰 시퀀스라면 1억 개의 비교가 필요합니다. 반면 SSM은 고정 크기의 숨겨진 상태를 유지하면서 순차적으로 업데이트합니다:

$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$

$$ y_t = C,h_t $$

행렬 $\bar{A}, \bar{B}, C$는 학습되지만, $h_t$는 시퀀스 길이에 따라 커지지 않습니다. 10 토큰을 처리하든 100 k 토큰을 처리하든 메모리 사용량은 동일합니다.

전체 기사 읽기 – TildAlice

0 조회
Back to Blog

관련 글

더 보기 »

AI Gateway에서 Recraft V4

개요: Recraft V4가 이제 AI Gateway에서 사용 가능합니다. 이는 전문 디자인 및 마케팅 사용 사례를 위해 구축된 텍스트‑투‑이미지 모델이며, ...