[Paper] 通过显式信息传输进行上下文压缩
发布: (2026年2月4日 GMT+8 01:44)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.03784v1
Overview
本文针对大型语言模型(LLMs)在处理超长输入时面临的 注意力二次成本 瓶颈提出了解决方案。通过引入 ComprExIT——一种轻量级的 “显式信息传输” 框架,作者展示了如何将长上下文压缩为少量密集向量 而无需对 LLM 本身进行微调,在问答任务上实现了更高的准确率,同时仅增加约 1 % 的额外参数。
关键贡献
- 新压缩范式:从“基于自注意力的压缩”(将 LLM 重新用于压缩)转向对 冻结的 LLM 隐藏状态进行显式传输。
- 深度方向传输:有选择地将多层信息提取为 token 锚点,防止层层聚合导致的逐步覆盖问题。
- 宽度方向传输:全局优化锚点合并到 固定大小的槽位集合 中,确保在有限压缩预算下的协同使用。
- 最小开销:整个系统仅引入约 1 % 的额外参数,可插入任意预训练的基于 Transformer 的 LLM。
- 强劲的实证提升:在六个多样化的问答基准上,超越了之前的最先进软压缩方法。
方法论
- 冻结 LLM – 原始模型的权重保持不变;仅训练一个小的辅助网络。
- 提取隐藏状态 – 对每个 token,框架从多个 transformer 层(例如第 4、8、12 层)收集表示。
- 深度方向传输
- 一个轻量的类似注意力的模块学习 哪些层对每个 token 的 锚点 向量贡献最大。
- 这会生成一组锚点向量,保留丰富的多层语义,而不会被更深层覆盖。
- 宽度方向传输
- 一个 全局传输计划(实现为一个小的可学习矩阵)决定如何将众多锚点映射到 固定数量的压缩槽(例如 32 槽)。
- 该计划与锚点提取器共同优化,确保来自上下文不同部分的信息 在槽之间一致分配。
- 与 LLM 集成 – 推理时,压缩槽取代原始的长 KV‑cache,使冻结的 LLM 能够关注一个短而信息丰富的上下文。
整个流水线可以在下游任务(例如 QA)上端到端训练,使用标准的交叉熵损失,但只有传输模块会收到梯度更新。
结果与发现
| Benchmark | Baseline (no compression) | Prior soft‑compression (e.g., MemPrompt) | ComprExIT |
|---|---|---|---|
| NaturalQuestions | 78.2 % | 74.5 % | 76.8 % |
| TriviaQA | 81.0 % | 77.3 % | 79.6 % |
| HotpotQA | 71.4 % | 68.1 % | 70.2 % |
| … (4 more) | — | — | — |
- 持续提升,相较于最强现有压缩方法,绝对 F1/EM 提高 1–3 %。
- 参数预算:在 6 B LLM 基础上额外约 0.8 M 参数(≈1 %)。
- 推理速度:内存流量降低约 30 %,延迟相当,因为 KV‑cache 大小从 O(N) 缩减至 O(S)(S ≪ N)。
消融实验表明,深度方向和宽度方向的传输均是必需的;去除任一方向会使性能下降至先前方法的水平。
实际意义
- 成本效益高的长上下文使用:开发者可以输入超过典型 2‑4 k token 窗口的文档、代码库或日志,而不会导致 GPU 内存爆炸。
- 即插即用:由于大模型保持冻结,现有的生产流水线(例如 OpenAI API 包装器、LangChain 代理)只需添加一个小的预处理步骤即可采用 ComprExIT。
- 更好的检索增强生成:检索系统返回大量段落时,可以将它们压缩为少量向量,在保持相关性的同时不超出模型限制。
- 边缘部署:极小的开销使得需要处理更长用户历史的设备端大模型(如移动端或嵌入式推理)成为可能。
限制与未来工作
- 固定槽位数量:当前设计假设压缩槽位数量是静态的;动态分配可以进一步适应可变长度的输入。
- 依赖冻结的 LLM 质量:如果基础模型的隐藏状态对特定领域的表达不足,压缩可能会丢失关键细微差别。
- 评估范围:基准测试侧重于 QA;将该方法应用于生成密集型任务(例如长篇摘要)仍是一个未解之题。
- 作者提出的未来方向包括:学习 自适应传输计划、将框架扩展到多模态编码器,以及探索 联合训练,即在压缩器的同时微调少量 LLM 层,以实现更紧密的集成。
作者
- Jiangnan Ye
- Hanqi Yan
- Zhenyi Shen
- Heng Chang
- Ye Mao
- Yulan He
论文信息
- arXiv ID: 2602.03784v1
- Categories: cs.CL
- Published: 2026年2月3日
- PDF: 下载 PDF