[Paper] MHA2MLA-VLM:在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力
Source: arXiv - 2601.11464v1
概述
本文介绍了 MHA2MLA‑VLM,一个轻量级框架,可将现有的视觉语言模型(VLM)转换为 Multi‑Head Latent Attention (MLA) 格式。通过压缩驱动 Transformer 推理的不断增长的键值(KV)缓存,该方法在无需昂贵的全模型预训练的情况下,大幅降低内存使用并加速推理。
关键贡献
- 参数高效的转换流水线:只需几百步训练,即可将现成的视觉语言模型(VLM)改装为多模态语言模型(MLA)。
- 模态自适应的部分 RoPE:一种选择性的旋转位置嵌入掩码,保留图像和文本流的关键维度,同时舍弃冗余维度。
- 模态解耦的低秩 KV 压缩:对视觉和文本 KV 矩阵分别进行低秩近似,实现比单一压缩方案更高的压缩率。
- 基于激活误差的微调:优化模型输出之间的差异(而非原始参数距离),显著降低转换后的性能下降。
- 兼容现有 KV 量化技术,实现组合式的内存节省效果。
- 在三种主流 VLM 上的实证验证(如 CLIP‑ViT、BLIP‑2 和 Flamingo‑style 模型),在保持原始准确率的同时,KV 占用仅为原始的 < 30 %。
方法论
-
Partial‑RoPE Masking – 传统的旋转位置嵌入会应用于所有注意力头。作者提出了一种掩码,能够将与给定模态(视觉或文本)无关的维度置零,从而让同一个 Transformer 块在不产生交叉污染的情况下处理两种流。
-
Separate Low‑Rank Approximation – 每种模态的 KV 缓存被分解为
$$
K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
K_{\text{text}} \approx U_T S_T V_T^\top ,
$$其中秩是按模态分别选择的。这种解耦方式尊重了图像块和 token 嵌入的不同统计特性。
-
Fine‑Tuning Objective – 作者并不是最小化
$$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$
而是最小化
$$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$
在一个小规模监督集合上,直接对齐模型的预测。
-
Parameter‑Efficient Adaptation – 只引入了一小部分适配层(约占总参数的 0.5 %),保持了转换成本低,并能够在边缘设备上快速部署。
结果与发现
| 模型(原始) | KV 大小(GB) | MHA2MLA‑VLM 后的 KV 大小 | Top‑1 图像-文本检索 Δ | 推理延迟 ↓ |
|---|---|---|---|---|
| CLIP‑ViT‑B/32 | 4.2 | 1.2 (≈ 71 % reduction) | –0.3 % | 28 % faster |
| BLIP‑2‑FlanT5 | 6.8 | 1.9 (≈ 72 % reduction) | –0.5 % | 31 % faster |
| Flamingo‑7B | 9.5 | 2.6 (≈ 73 % reduction) | –0.2 % | 27 % faster |
- 性能下降 在标准 VLM 基准(MS‑COCO、Flickr30K)上保持在 0.5 % 以下。
- 微调数据 需求极小:约 5 k 图文对(≈ 原始预训练语料的 0.1 %)。
- 与 8 位 KV 量化相结合时,总内存降至基线的 ≈ 10 %,且保持准确性。
Practical Implications
- Edge Deployment – 开发者现在可以在内存小于 2 GB 的设备上(例如智能手机、AR 眼镜)运行大型视觉语言模型(VLM),只需将 KV 缓存替换为其 MLA 对应版本。
- Cost‑Effective Scaling – 云推理服务能够在每块 GPU 上处理更多并发请求,因为 KV 缓存不再是内存消耗的主要瓶颈。
- Rapid Prototyping – 现有的 VLM 流程(如图像字幕、视觉问答)只需几小时的微调即可升级为 MLA,无需从头训练新模型。
- Interoperability – 该方法适用于任何基于 Transformer 的 VLM,能够作为开源项目(如 HuggingFace 的
transformers库)的即插即用升级方案。 - Energy Savings – 更小的 KV 占用意味着更少的内存访问,这对绿色 AI 计划和电池供电设备来说是显著的优势。
局限性与未来工作
- Modality‑specific rank selection 仍然需要手动调优;自动的秩选择算法可以简化此过程。
- 该方法假设 fixed transformer architecture;将其扩展到具有混合模态交叉注意层的模型(例如 Perceiver‑IO)仍是一个待解决的问题。
- 实验主要聚焦于 retrieval and captioning 任务;将 MHA2MLA‑VLM 应用于更复杂的多模态推理(例如 video‑language)留待未来研究。
- 虽然 KV cache 已被大量压缩,但 model weights 本身未改变;将 MLA 转换与权重量化或剪枝相结合可能进一步提升内存节省。
作者
- Xiaoran Fan
- Zhichao Sun
- Tao Ji
- Lixing Shen
- Tao Gui
论文信息
- arXiv ID: 2601.11464v1
- 分类: cs.CV, cs.AI, cs.CL, cs.LG
- 发表时间: 2026年1月16日
- PDF: 下载 PDF