[Paper] 通过显式信息传输进行上下文压缩

发布: 5天前 (2026年2月4日 GMT+8 01:44)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.03784v1

Overview

本文针对大型语言模型（LLMs）在处理超长输入时面临的 注意力二次成本 瓶颈提出了解决方案。通过引入 ComprExIT——一种轻量级的 “显式信息传输” 框架，作者展示了如何将长上下文压缩为少量密集向量 而无需对 LLM 本身进行微调，在问答任务上实现了更高的准确率，同时仅增加约 1 % 的额外参数。

关键贡献

新压缩范式：从“基于自注意力的压缩”（将 LLM 重新用于压缩）转向对 冻结的 LLM 隐藏状态进行显式传输。
深度方向传输：有选择地将多层信息提取为 token 锚点，防止层层聚合导致的逐步覆盖问题。
宽度方向传输：全局优化锚点合并到 固定大小的槽位集合 中，确保在有限压缩预算下的协同使用。
最小开销：整个系统仅引入约 1 % 的额外参数，可插入任意预训练的基于 Transformer 的 LLM。
强劲的实证提升：在六个多样化的问答基准上，超越了之前的最先进软压缩方法。

方法论

冻结 LLM – 原始模型的权重保持不变；仅训练一个小的辅助网络。
提取隐藏状态 – 对每个 token，框架从多个 transformer 层（例如第 4、8、12 层）收集表示。
深度方向传输
- 一个轻量的类似注意力的模块学习 哪些层对每个 token 的锚点向量贡献最大。
- 这会生成一组锚点向量，保留丰富的多层语义，而不会被更深层覆盖。
宽度方向传输
- 一个 全局传输计划（实现为一个小的可学习矩阵）决定如何将众多锚点映射到 固定数量的压缩槽（例如 32 槽）。
- 该计划与锚点提取器共同优化，确保来自上下文不同部分的信息 在槽之间一致分配。
与 LLM 集成 – 推理时，压缩槽取代原始的长 KV‑cache，使冻结的 LLM 能够关注一个短而信息丰富的上下文。

整个流水线可以在下游任务（例如 QA）上端到端训练，使用标准的交叉熵损失，但只有传输模块会收到梯度更新。

结果与发现

Benchmark	Baseline (no compression)	Prior soft‑compression (e.g., MemPrompt)	ComprExIT
NaturalQuestions	78.2 %	74.5 %	76.8 %
TriviaQA	81.0 %	77.3 %	79.6 %
HotpotQA	71.4 %	68.1 %	70.2 %
… (4 more)	—	—	—

持续提升，相较于最强现有压缩方法，绝对 F1/EM 提高 1–3 %。
参数预算：在 6 B LLM 基础上额外约 0.8 M 参数（≈1 %）。
推理速度：内存流量降低约 30 %，延迟相当，因为 KV‑cache 大小从 O(N) 缩减至 O(S)（S ≪ N）。

消融实验表明，深度方向和宽度方向的传输均是必需的；去除任一方向会使性能下降至先前方法的水平。

实际意义

成本效益高的长上下文使用：开发者可以输入超过典型 2‑4 k token 窗口的文档、代码库或日志，而不会导致 GPU 内存爆炸。
即插即用：由于大模型保持冻结，现有的生产流水线（例如 OpenAI API 包装器、LangChain 代理）只需添加一个小的预处理步骤即可采用 ComprExIT。
更好的检索增强生成：检索系统返回大量段落时，可以将它们压缩为少量向量，在保持相关性的同时不超出模型限制。
边缘部署：极小的开销使得需要处理更长用户历史的设备端大模型（如移动端或嵌入式推理）成为可能。

限制与未来工作

固定槽位数量：当前设计假设压缩槽位数量是静态的；动态分配可以进一步适应可变长度的输入。
依赖冻结的 LLM 质量：如果基础模型的隐藏状态对特定领域的表达不足，压缩可能会丢失关键细微差别。
评估范围：基准测试侧重于 QA；将该方法应用于生成密集型任务（例如长篇摘要）仍是一个未解之题。
作者提出的未来方向包括：学习 自适应传输计划、将框架扩展到多模态编码器，以及探索 联合训练，即在压缩器的同时微调少量 LLM 层，以实现更紧密的集成。

作者

Jiangnan Ye
Hanqi Yan
Zhenyi Shen
Heng Chang
Ye Mao
Yulan He

论文信息

arXiv ID: 2602.03784v1
Categories: cs.CL
Published: 2026年2月3日
PDF: 下载 PDF

[Paper] 通过显式信息传输进行上下文压缩

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] DFlash：块扩散用于 Flash 投机解码

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

[论文] 通过自蒸馏的多标记预测

[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用