TTT-E2E：在阅读时学习的 AI 模型（告别 KV 缓存？）

发布: 1个月前 (2026年1月6日 GMT+8 01:50)

3 分钟阅读

原文: Dev.to

Source: Dev.to

介绍

想象一下，一个 AI 不仅仅把信息存储在静态记忆库中，而是在处理长文档时实际提升其内部理解。来自斯坦福大学、NVIDIA 和加州大学伯克利分校的合作团队提出了一项突破，将长上下文建模重新定义为持续学习问题：TTT‑E2E（测试时训练）。

传统注意力的问题

标准 Transformer 依赖自注意力，但受到 KV（键‑值）缓存 问题的困扰。随着输入序列的增长，存储每个 token 所需的内存线性（或在某些情况下二次）增长，使得处理 128 K token 甚至更多时成本极高且速度缓慢。

TTT‑E2E 模型并不将每个 token 明确存入缓存，而是将隐藏状态本身视为机器学习模型。模型在阅读时执行一次小规模优化步骤——更新自身权重以压缩上下文。这意味着模型在阅读的同时持续进行训练。

Constant inference cost – 处理单个 token 的成本不会随着序列长度的增加而爆炸。
Full‑attention performance – 在 128 K token 时实现与传统模型相同的准确度，但效率更高。
Linear scaling – 弥合 RNN 效率与 Transformer 性能之间的差距。

我们正迈向“无限上下文”的世界。无论是分析整个代码库、冗长的法律文档，还是数小时的视频，都需要能够处理海量数据而不崩溃的模型。TTT‑E2E 表明，静态记忆可以被动态权重取代，从而实现更聪明、更快速的模型。

虽然仍有待探索的局限性——例如推理期间梯度更新的开销——但这项研究标志着我们对神经网络记忆认知的重大转变。

资源

相关文章

阅读更多 »

NVIDIA Rubin Platform、Open Models、自动驾驶：NVIDIA 在 CES 上呈现未来蓝图

NVIDIA CEO 黄仁勋开启 CES 2026 NVIDIA 创始人兼 CEO 黄仁勋今天在拉斯维加斯的 Fontainebleau 酒店登台，开启 CES 2026，并宣称……

NVIDIA BlueField 驱动的网络安全与加速已在 NVIDIA Enterprise AI Factory 验证设计中推出

AI 正在推动各行业的突破，帮助企业以更高的智能和速度运营。随着 AI factories 的规模扩大，下一代 e...

NVIDIA DGX SuperPOD 为基于Rubin的系统奠定基础

NVIDIA DGX SuperPOD 与 Rubin 平台 NVIDIA DGX SuperPOD 正在为基于 NVIDIA Rubin 平台的大规模系统部署铺平道路——下一步…

NVIDIA 将全球 DRIVE Hyperion 生态系统扩展，以加速通往完全自动驾驶的道路

在拉斯维加斯的 CES 展会上，NVIDIA 宣布全球 DRIVE Hyperion 生态系统正在扩展，涵盖 tier‑1 供应商、汽车集成商，……