Mamba-2 vs Griffin vs RWKV-6:SSM 架构基准测试

发布: (2026年2月15日 GMT+8 05:34)
2 分钟阅读
原文: Dev.to

Source: Dev.to

注意力的二次复杂度——序列长度为 $n$ 时为 $O(n^2)$——在上下文窗口达到 128 k token 的那一刻就不再是理论上的问题。状态空间模型(SSM)承诺在不牺牲质量的前提下实现 $O(n)$ 复杂度,但在 2026 年主导的三大架构是 Mamba‑2GriffinRWKV‑6

我在相同的 1.3 B 参数预算下对这三者进行了基准测试。结果颠覆了我对注意力替代方案的认知。

近距离拍摄的 Seagate FireCuda SSD,白色背景上有三只黄色橡胶鸭子。
照片作者 Andrey MatveevPexels

SSM 与 Transformer 的区别

Transformer 在每一对 token 之间计算注意力得分。对于 10 k token 的序列,这意味着 1 亿次比较。SSM 则保持一个固定大小的隐藏状态,并按顺序进行更新:

$$ h_t = \bar{A},h_{t-1} + \bar{B},x_t $$

$$ y_t = C,h_t $$

矩阵 $\bar{A}, \bar{B}, C$ 是可学习的,但关键是 $h_t$ 的大小不随序列长度增长。无论处理 10 个 token 还是 100 k 个 token,内存占用都是相同的。

继续阅读 TildAlice 上的完整文章

0 浏览
Back to Blog

相关文章

阅读更多 »

Structured AI (YC F25) 招聘中

概述 Structured AI 正在为建筑设计工程构建 AI 劳动力。 问题 当今,数十亿美元和数月的人力投入正……