Mamba-2 vs Griffin vs RWKV-6：SSM 架构基准测试

发布: 2个月前 (2026年2月15日 GMT+8 05:34)

2 分钟阅读

原文: Dev.to

Source: Dev.to

注意力的二次复杂度——序列长度为 $n$ 时为 $O(n^2)$——在上下文窗口达到 128 k token 的那一刻就不再是理论上的问题。状态空间模型（SSM）承诺在不牺牲质量的前提下实现 $O(n)$ 复杂度，但在 2026 年主导的三大架构是 Mamba‑2、Griffin 和 RWKV‑6。

我在相同的 1.3 B 参数预算下对这三者进行了基准测试。结果颠覆了我对注意力替代方案的认知。

近距离拍摄的 Seagate FireCuda SSD，白色背景上有三只黄色橡胶鸭子。
照片作者 Andrey Matveev 于 Pexels

SSM 与 Transformer 的区别

Transformer 在每一对 token 之间计算注意力得分。对于 10 k token 的序列，这意味着 1 亿次比较。SSM 则保持一个固定大小的隐藏状态，并按顺序进行更新：

$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$

$$ y_t = C,h_t $$

矩阵 $\bar{A}, \bar{B}, C$ 是可学习的，但关键是 $h_t$ 的大小不随序列长度增长。无论处理 10 个 token 还是 100 k 个 token，内存占用都是相同的。

继续阅读 TildAlice 上的完整文章

Mamba-2 vs Griffin vs RWKV-6：SSM 架构基准测试

SSM 与 Transformer 的区别

相关文章

OpenEnv 实践：评估工具使用代理在真实世界环境中的表现

[论文] Large Language Models 能让每个人都快乐吗？

[Paper] 对神经语言模型的刺激贫乏论的统一评估

Show HN：扫描的 1927-1945 年每日 USFS 工作日记