Mamba-2 vs Griffin vs RWKV-6:SSM 架构基准测试
Source: Dev.to
注意力的二次复杂度——序列长度为 $n$ 时为 $O(n^2)$——在上下文窗口达到 128 k token 的那一刻就不再是理论上的问题。状态空间模型(SSM)承诺在不牺牲质量的前提下实现 $O(n)$ 复杂度,但在 2026 年主导的三大架构是 Mamba‑2、Griffin 和 RWKV‑6。
我在相同的 1.3 B 参数预算下对这三者进行了基准测试。结果颠覆了我对注意力替代方案的认知。

照片作者 Andrey Matveev 于 Pexels
SSM 与 Transformer 的区别
Transformer 在每一对 token 之间计算注意力得分。对于 10 k token 的序列,这意味着 1 亿次比较。SSM 则保持一个固定大小的隐藏状态,并按顺序进行更新:
$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$
$$ y_t = C,h_t $$
矩阵 $\bar{A}, \bar{B}, C$ 是可学习的,但关键是 $h_t$ 的大小不随序列长度增长。无论处理 10 个 token 还是 100 k 个 token,内存占用都是相同的。