[Paper] MHA2MLA-VLM:在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

发布: (2026年1月17日 GMT+8 01:45)
6 min read
原文: arXiv

Source: arXiv - 2601.11464v1

概述

本文介绍了 MHA2MLA‑VLM,一个轻量级框架,可将现有的视觉语言模型(VLM)转换为 Multi‑Head Latent Attention (MLA) 格式。通过压缩驱动 Transformer 推理的不断增长的键值(KV)缓存,该方法在无需昂贵的全模型预训练的情况下,大幅降低内存使用并加速推理。

关键贡献

  • 参数高效的转换流水线:只需几百步训练,即可将现成的视觉语言模型(VLM)改装为多模态语言模型(MLA)。
  • 模态自适应的部分 RoPE:一种选择性的旋转位置嵌入掩码,保留图像和文本流的关键维度,同时舍弃冗余维度。
  • 模态解耦的低秩 KV 压缩:对视觉和文本 KV 矩阵分别进行低秩近似,实现比单一压缩方案更高的压缩率。
  • 基于激活误差的微调:优化模型输出之间的差异(而非原始参数距离),显著降低转换后的性能下降。
  • 兼容现有 KV 量化技术,实现组合式的内存节省效果。
  • 在三种主流 VLM 上的实证验证(如 CLIP‑ViT、BLIP‑2 和 Flamingo‑style 模型),在保持原始准确率的同时,KV 占用仅为原始的 < 30 %。

方法论

  1. Partial‑RoPE Masking – 传统的旋转位置嵌入会应用于所有注意力头。作者提出了一种掩码,能够将与给定模态(视觉或文本)无关的维度置零,从而让同一个 Transformer 块在不产生交叉污染的情况下处理两种流。

  2. Separate Low‑Rank Approximation – 每种模态的 KV 缓存被分解为

    $$
    K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
    K_{\text{text}} \approx U_T S_T V_T^\top ,
    $$

    其中秩是按模态分别选择的。这种解耦方式尊重了图像块和 token 嵌入的不同统计特性。

  3. Fine‑Tuning Objective – 作者并不是最小化

    $$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$

    而是最小化

    $$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$

    在一个小规模监督集合上,直接对齐模型的预测。

  4. Parameter‑Efficient Adaptation – 只引入了一小部分适配层(约占总参数的 0.5 %),保持了转换成本低,并能够在边缘设备上快速部署。

结果与发现

模型(原始)KV 大小(GB)MHA2MLA‑VLM 后的 KV 大小Top‑1 图像-文本检索 Δ推理延迟 ↓
CLIP‑ViT‑B/324.21.2 (≈ 71 % reduction)–0.3 %28 % faster
BLIP‑2‑FlanT56.81.9 (≈ 72 % reduction)–0.5 %31 % faster
Flamingo‑7B9.52.6 (≈ 73 % reduction)–0.2 %27 % faster
  • 性能下降 在标准 VLM 基准(MS‑COCO、Flickr30K)上保持在 0.5 % 以下。
  • 微调数据 需求极小:约 5 k 图文对(≈ 原始预训练语料的 0.1 %)。
  • 与 8 位 KV 量化相结合时,总内存降至基线的 ≈ 10 %,且保持准确性。

Practical Implications

  • Edge Deployment – 开发者现在可以在内存小于 2 GB 的设备上(例如智能手机、AR 眼镜)运行大型视觉语言模型(VLM),只需将 KV 缓存替换为其 MLA 对应版本。
  • Cost‑Effective Scaling – 云推理服务能够在每块 GPU 上处理更多并发请求,因为 KV 缓存不再是内存消耗的主要瓶颈。
  • Rapid Prototyping – 现有的 VLM 流程(如图像字幕、视觉问答)只需几小时的微调即可升级为 MLA,无需从头训练新模型。
  • Interoperability – 该方法适用于任何基于 Transformer 的 VLM,能够作为开源项目(如 HuggingFace 的 transformers 库)的即插即用升级方案。
  • Energy Savings – 更小的 KV 占用意味着更少的内存访问,这对绿色 AI 计划和电池供电设备来说是显著的优势。

局限性与未来工作

  • Modality‑specific rank selection 仍然需要手动调优;自动的秩选择算法可以简化此过程。
  • 该方法假设 fixed transformer architecture;将其扩展到具有混合模态交叉注意层的模型(例如 Perceiver‑IO)仍是一个待解决的问题。
  • 实验主要聚焦于 retrieval and captioning 任务;将 MHA2MLA‑VLM 应用于更复杂的多模态推理(例如 video‑language)留待未来研究。
  • 虽然 KV cache 已被大量压缩,但 model weights 本身未改变;将 MLA 转换与权重量化或剪枝相结合可能进一步提升内存节省。

作者

  • Xiaoran Fan
  • Zhichao Sun
  • Tao Ji
  • Lixing Shen
  • Tao Gui

论文信息

  • arXiv ID: 2601.11464v1
  • 分类: cs.CV, cs.AI, cs.CL, cs.LG
  • 发表时间: 2026年1月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »