[Paper] 每个 Token 都很重要:在大型语言模型中推广 16M 超长上下文
Source: arXiv - 2511.23319v1
概览
论文 “Every Token Counts: Generalizing 16M Ultra‑Long Context in Large Language Models” 解决了当前大型语言模型(LLM)面临的一个根本瓶颈:无法在极长文本序列上保持记忆并进行推理。作者通过引入层次稀疏注意力(Hierarchical Sparse Attention,HSA)机制,构建了一个 80 亿参数的混合专家(Mixture‑of‑Experts,MoE)模型,能够高效处理高达 1600 万 token 的上下文——大致相当于一本完整的书——同时在标准基准上仍保持强劲性能。
主要贡献
- 层次稀疏注意力(HSA): 一种新颖的注意力设计,融合稀疏性、随机访问灵活性和长度泛化能力,使得模型能够高效扩展到超长上下文。
- HSA‑UltraLong 模型: 一个 8B 参数的 MoE Transformer,训练使用超过 8 万亿 token,能够处理最长达 1600 万 token 的上下文窗口。
- 全面评估: 在同域长度上与全注意力基线持平,并在多样化的同域和跨域超长序列检索任务中实现超过 90 % 的准确率。
- 开源洞见: 提供了详细的实验分析以及面向未来超长上下文研究的开放问题路线图。
方法论
-
问题框架化: 作者将 LLM 中的“记忆”视为需要具备三大属性:
- 稀疏性:仅有少量 token 之间相互注意,以降低二次方计算成本。
- 随机访问灵活性:模型必须能够按需检索任意 token,而非仅限于固定滑动窗口。
- 长度泛化:在一种上下文长度上训练的模型应能在推理时迁移到更长的序列。
-
层次稀疏注意力(HSA):
- 局部层(Local layer): 在短窗口(例如 1 k token)内使用标准密集注意力,以捕获细粒度关系。
- 全局层(Global layer): 为每个局部块生成稀疏的“摘要” token,这些摘要相互注意,使信息能够以 O(N) 的代价在整个序列上传播。
- 随机访问: 任意 token 可通过遍历层次结构(类似树查找)检索,保持灵活性。
-
模型架构: HSA 替代 Transformer‑MoE 主干中的普通自注意力块。MoE 路由进一步提升容量,而计算开销并未等比例增长。
-
训练方案:
- 数据: 超过 8 万亿 token,来源于多样化的网络语料,确保模型接触到长文档。
- 课程学习(Curriculum): 从短上下文开始,逐步增加长度,促进长度泛化。
- 优化: 使用标准 AdamW 并结合 MoE 平衡策略,加入正则化以保持稀疏注意力的稳定性。
结果与发现
| 评估项目 | 上下文长度 | 全注意力基线 | HSA‑UltraLong |
|---|---|---|---|
| 语言建模(困惑度) | 2 k – 8 k | 相当 | 相当 |
| 同域检索(准确率) | 1 M – 16 M | 急剧下降 | 全面超过 90 % |
| 零样本问答(长文档) | 4 M | 失败(内存不足) | 成功,接近基线质量 |
| 跨域(法律合同、代码库) | 8 M – 16 M | 无法使用 | 稳健,保持 >85 % 性能 |
结论: HSA‑UltraLong 在短程任务上与密集注意力持平,而在超长上下文上显著超越,验证了稀疏加层次路由能够在不产生二次方计算爆炸的前提下保留关键信息。
实际意义
- 企业文档处理: 企业可以一次性将完整的政策手册、法律合同或代码库(数十 MB)输入模型,实现精准检索、摘要或问答,无需切块。
- 长篇内容生成: 作者和开发者可以用完整草稿(如小说手稿)作为提示,获得连贯的续写或编辑建议,能够跨章节保持一致性。
- 开发者工具: IDE 可集成单一 LLM,对整个代码库(数百万行)进行索引,实现上下文感知的自动补全、重构或错误解释,降低对外部向量库的依赖。
- 成本高效的扩展: 由于 HSA 的计算近似线性随 token 数增长,云服务商可以以远低于传统密集注意力模型的成本提供“超长上下文”接口。
局限性与未来工作
- 内存占用: 虽然是线性增长,但对 1600 万 token 的层次表示仍需数 GB GPU 显存,限制了在普通硬件上的部署。
- 延迟: 两阶段(局部 + 全局)注意力相较于短序列的纯密集注意力会有一定额外开销;如何在保持低延迟的同时优化层次结构仍是未解挑战。
- 多模态泛化: 当前工作仅聚焦纯文本,扩展 HSA 至视觉‑语言或音频流需要额外研究。
- 对抗性提示的鲁棒性: 稀疏注意力可能遗漏罕见的长距离依赖;未来应探索在必要时动态加密注意力的混合方案。
核心结论: 通过证明在 1600 万 token 规模下“每个 token 都重要”,本文为真正记忆的大型语言模型打开了大门——让一本书、一个代码库或海量日志可以在单一统一模型中得到处理,已从梦想走向可行的现实。
作者
- 胡翔
- 周展超
- 梁瑞奇
- 李泽环
- 吴伟
- 李建国
论文信息
- arXiv ID: 2511.23319v1
- 分类: cs.CL, cs.AI
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF