[Paper] 通过显式信息传输进行上下文压缩

发布: (2026年2月4日 GMT+8 01:44)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.03784v1

Overview

本文针对大型语言模型(LLMs)在处理超长输入时面临的 注意力二次成本 瓶颈提出了解决方案。通过引入 ComprExIT——一种轻量级的 “显式信息传输” 框架,作者展示了如何将长上下文压缩为少量密集向量 而无需对 LLM 本身进行微调,在问答任务上实现了更高的准确率,同时仅增加约 1 % 的额外参数。

关键贡献

  • 新压缩范式:从“基于自注意力的压缩”(将 LLM 重新用于压缩)转向对 冻结的 LLM 隐藏状态进行显式传输
  • 深度方向传输:有选择地将多层信息提取为 token 锚点,防止层层聚合导致的逐步覆盖问题。
  • 宽度方向传输:全局优化锚点合并到 固定大小的槽位集合 中,确保在有限压缩预算下的协同使用。
  • 最小开销:整个系统仅引入约 1 % 的额外参数,可插入任意预训练的基于 Transformer 的 LLM。
  • 强劲的实证提升:在六个多样化的问答基准上,超越了之前的最先进软压缩方法。

方法论

  1. 冻结 LLM – 原始模型的权重保持不变;仅训练一个小的辅助网络。
  2. 提取隐藏状态 – 对每个 token,框架从多个 transformer 层(例如第 4、8、12 层)收集表示。
  3. 深度方向传输
    • 一个轻量的类似注意力的模块学习 哪些层对每个 token 的 锚点 向量贡献最大
    • 这会生成一组锚点向量,保留丰富的多层语义,而不会被更深层覆盖。
  4. 宽度方向传输
    • 一个 全局传输计划(实现为一个小的可学习矩阵)决定如何将众多锚点映射到 固定数量的压缩槽(例如 32 槽)。
    • 该计划与锚点提取器共同优化,确保来自上下文不同部分的信息 在槽之间一致分配
  5. 与 LLM 集成 – 推理时,压缩槽取代原始的长 KV‑cache,使冻结的 LLM 能够关注一个短而信息丰富的上下文。

整个流水线可以在下游任务(例如 QA)上端到端训练,使用标准的交叉熵损失,但只有传输模块会收到梯度更新。

结果与发现

BenchmarkBaseline (no compression)Prior soft‑compression (e.g., MemPrompt)ComprExIT
NaturalQuestions78.2 %74.5 %76.8 %
TriviaQA81.0 %77.3 %79.6 %
HotpotQA71.4 %68.1 %70.2 %
… (4 more)
  • 持续提升,相较于最强现有压缩方法,绝对 F1/EM 提高 1–3 %。
  • 参数预算:在 6 B LLM 基础上额外约 0.8 M 参数(≈1 %)。
  • 推理速度:内存流量降低约 30 %,延迟相当,因为 KV‑cache 大小从 O(N) 缩减至 O(S)(S ≪ N)。

消融实验表明,深度方向和宽度方向的传输均是必需的;去除任一方向会使性能下降至先前方法的水平。

实际意义

  • 成本效益高的长上下文使用:开发者可以输入超过典型 2‑4 k token 窗口的文档、代码库或日志,而不会导致 GPU 内存爆炸。
  • 即插即用:由于大模型保持冻结,现有的生产流水线(例如 OpenAI API 包装器、LangChain 代理)只需添加一个小的预处理步骤即可采用 ComprExIT。
  • 更好的检索增强生成:检索系统返回大量段落时,可以将它们压缩为少量向量,在保持相关性的同时不超出模型限制。
  • 边缘部署:极小的开销使得需要处理更长用户历史的设备端大模型(如移动端或嵌入式推理)成为可能。

限制与未来工作

  • 固定槽位数量:当前设计假设压缩槽位数量是静态的;动态分配可以进一步适应可变长度的输入。
  • 依赖冻结的 LLM 质量:如果基础模型的隐藏状态对特定领域的表达不足,压缩可能会丢失关键细微差别。
  • 评估范围:基准测试侧重于 QA;将该方法应用于生成密集型任务(例如长篇摘要)仍是一个未解之题。
  • 作者提出的未来方向包括:学习 自适应传输计划、将框架扩展到多模态编码器,以及探索 联合训练,即在压缩器的同时微调少量 LLM 层,以实现更紧密的集成。

作者

  • Jiangnan Ye
  • Hanqi Yan
  • Zhenyi Shen
  • Heng Chang
  • Ye Mao
  • Yulan He

论文信息

  • arXiv ID: 2602.03784v1
  • Categories: cs.CL
  • Published: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »