[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

发布: 3周前 (2026年1月17日 GMT+8 01:45)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.11464v1

概述

本文介绍了 MHA2MLA‑VLM，一个轻量级框架，可将现有的视觉语言模型（VLM）转换为 Multi‑Head Latent Attention (MLA) 格式。通过压缩驱动 Transformer 推理的不断增长的键值（KV）缓存，该方法在无需昂贵的全模型预训练的情况下，大幅降低内存使用并加速推理。

关键贡献

参数高效的转换流水线：只需几百步训练，即可将现成的视觉语言模型（VLM）改装为多模态语言模型（MLA）。
模态自适应的部分 RoPE：一种选择性的旋转位置嵌入掩码，保留图像和文本流的关键维度，同时舍弃冗余维度。
模态解耦的低秩 KV 压缩：对视觉和文本 KV 矩阵分别进行低秩近似，实现比单一压缩方案更高的压缩率。
基于激活误差的微调：优化模型输出之间的差异（而非原始参数距离），显著降低转换后的性能下降。
兼容现有 KV 量化技术，实现组合式的内存节省效果。
在三种主流 VLM 上的实证验证（如 CLIP‑ViT、BLIP‑2 和 Flamingo‑style 模型），在保持原始准确率的同时，KV 占用仅为原始的 < 30 %。

方法论

Partial‑RoPE Masking – 传统的旋转位置嵌入会应用于所有注意力头。作者提出了一种掩码，能够将与给定模态（视觉或文本）无关的维度置零，从而让同一个 Transformer 块在不产生交叉污染的情况下处理两种流。
Separate Low‑Rank Approximation – 每种模态的 KV 缓存被分解为

$$
K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
K_{\text{text}} \approx U_T S_T V_T^\top ,
$$

其中秩是按模态分别选择的。这种解耦方式尊重了图像块和 token 嵌入的不同统计特性。
Fine‑Tuning Objective – 作者并不是最小化

$$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$

而是最小化

$$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$

在一个小规模监督集合上，直接对齐模型的预测。
Parameter‑Efficient Adaptation – 只引入了一小部分适配层（约占总参数的 0.5 %），保持了转换成本低，并能够在边缘设备上快速部署。

结果与发现

模型（原始）	KV 大小（GB）	MHA2MLA‑VLM 后的 KV 大小	Top‑1 图像-文本检索 Δ	推理延迟 ↓
CLIP‑ViT‑B/32	4.2	1.2 (≈ 71 % reduction)	–0.3 %	28 % faster
BLIP‑2‑FlanT5	6.8	1.9 (≈ 72 % reduction)	–0.5 %	31 % faster
Flamingo‑7B	9.5	2.6 (≈ 73 % reduction)	–0.2 %	27 % faster

性能下降 在标准 VLM 基准（MS‑COCO、Flickr30K）上保持在 0.5 % 以下。
微调数据 需求极小：约 5 k 图文对（≈ 原始预训练语料的 0.1 %）。
与 8 位 KV 量化相结合时，总内存降至基线的 ≈ 10 %，且保持准确性。

Practical Implications

Edge Deployment – 开发者现在可以在内存小于 2 GB 的设备上（例如智能手机、AR 眼镜）运行大型视觉语言模型（VLM），只需将 KV 缓存替换为其 MLA 对应版本。
Cost‑Effective Scaling – 云推理服务能够在每块 GPU 上处理更多并发请求，因为 KV 缓存不再是内存消耗的主要瓶颈。
Rapid Prototyping – 现有的 VLM 流程（如图像字幕、视觉问答）只需几小时的微调即可升级为 MLA，无需从头训练新模型。
Interoperability – 该方法适用于任何基于 Transformer 的 VLM，能够作为开源项目（如 HuggingFace 的 transformers 库）的即插即用升级方案。
Energy Savings – 更小的 KV 占用意味着更少的内存访问，这对绿色 AI 计划和电池供电设备来说是显著的优势。

局限性与未来工作

Modality‑specific rank selection 仍然需要手动调优；自动的秩选择算法可以简化此过程。
该方法假设 fixed transformer architecture；将其扩展到具有混合模态交叉注意层的模型（例如 Perceiver‑IO）仍是一个待解决的问题。
实验主要聚焦于 retrieval and captioning 任务；将 MHA2MLA‑VLM 应用于更复杂的多模态推理（例如 video‑language）留待未来研究。
虽然 KV cache 已被大量压缩，但 model weights 本身未改变；将 MLA 转换与权重量化或剪枝相结合可能进一步提升内存节省。

作者

Xiaoran Fan
Zhichao Sun
Tao Ji
Lixing Shen
Tao Gui

论文信息

arXiv ID: 2601.11464v1
分类: cs.CV, cs.AI, cs.CL, cs.LG
发表时间: 2026年1月16日
PDF: 下载 PDF

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

概述

关键贡献

方法论

结果与发现

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

[Paper] PubMed-OCR: PMC 开放获取 OCR 注释

[论文] LLMs 可以压缩 LLMs：由代理进行的自适应剪枝

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针