TTT-E2E:在阅读时学习的 AI 模型(告别 KV 缓存?)
Source: Dev.to
介绍
想象一下,一个 AI 不仅仅把信息存储在静态记忆库中,而是在处理长文档时实际提升其内部理解。来自斯坦福大学、NVIDIA 和加州大学伯克利分校的合作团队提出了一项突破,将长上下文建模重新定义为持续学习问题:TTT‑E2E(测试时训练)。
传统注意力的问题
标准 Transformer 依赖自注意力,但受到 KV(键‑值)缓存 问题的困扰。随着输入序列的增长,存储每个 token 所需的内存线性(或在某些情况下二次)增长,使得处理 128 K token 甚至更多时成本极高且速度缓慢。
TTT‑E2E 模型并不将每个 token 明确存入缓存,而是将隐藏状态本身视为机器学习模型。模型在阅读时执行一次小规模优化步骤——更新自身权重以压缩上下文。这意味着模型在阅读的同时持续进行训练。
- Constant inference cost – 处理单个 token 的成本不会随着序列长度的增加而爆炸。
- Full‑attention performance – 在 128 K token 时实现与传统模型相同的准确度,但效率更高。
- Linear scaling – 弥合 RNN 效率与 Transformer 性能之间的差距。
我们正迈向“无限上下文”的世界。无论是分析整个代码库、冗长的法律文档,还是数小时的视频,都需要能够处理海量数据而不崩溃的模型。TTT‑E2E 表明,静态记忆可以被动态权重取代,从而实现更聪明、更快速的模型。
虽然仍有待探索的局限性——例如推理期间梯度更新的开销——但这项研究标志着我们对神经网络记忆认知的重大转变。