[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용

발행: (2026년 1월 17일 오전 02:45 GMT+9)
7 분 소요
원문: arXiv

Source: arXiv - 2601.11464v1

Overview

이 논문은 기존 비전‑언어 모델(VLM)을 Multi‑Head Latent Attention (MLA) 형식으로 변환하는 경량 프레임워크 MHA2MLA‑VLM을 소개합니다. 트랜스포머 추론을 구동하는 지속적으로 증가하는 키‑밸류(KV) 캐시를 압축함으로써, 이 방법은 메모리 사용량을 크게 줄이고 추론 속도를 높이며, 비용이 많이 드는 전체 모델 사전 학습 없이도 동작합니다.

주요 기여

  • Parameter‑efficient conversion pipeline: 기존 VLM을 MLA에 맞게 개조하는 파라미터 효율적인 변환 파이프라인으로, 수백 단계의 학습만 필요합니다.
  • Modality‑adaptive partial‑RoPE: 이미지와 텍스트 스트림 모두에 필수적인 차원을 유지하고 중복 차원은 제거하는 선택적 로터리 포지션 임베딩 마스크.
  • Modality‑decoupled low‑rank KV compression: 시각 및 텍스트 KV 행렬에 대해 독립적인 저랭크 근사화를 적용하여 단일 방식보다 높은 압축 비율을 달성합니다.
  • Activation‑error‑driven fine‑tuning: 모델 출력 차이(원시 파라미터 거리 대신)를 최적화함으로써 변환 후 성능 저하를 크게 감소시킵니다.
  • Compatibility with existing KV‑quantization techniques, 기존 KV‑quantization 기법과의 호환성을 제공하여 메모리 절감 효과를 결합합니다.
  • Empirical validation on three popular VLMs (예: CLIP‑ViT, BLIP‑2, Flamingo‑스타일 모델)에서 원본 KV 용량의 30 % 미만으로 원본 정확도에 근접함을 입증했습니다.

Source:

방법론

  1. Partial‑RoPE Masking – 기존의 회전 위치 임베딩은 모든 어텐션 헤드에 적용됩니다. 저자들은 시각 모달리티와 텍스트 모달리티에 대해 관련 없는 차원을 0으로 만드는 마스크를 제안하여, 동일한 트랜스포머 블록이 두 스트림을 교차 오염 없이 처리할 수 있게 합니다.

  2. Separate Low‑Rank Approximation – 각 모달리티에 대한 KV 캐시는 다음과 같이 분해됩니다

    $$
    K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
    K_{\text{text}} \approx U_T S_T V_T^\top ,
    $$

    여기서 랭크는 모달리티별로 선택됩니다. 이 분리 방식은 이미지 패치와 토큰 임베딩의 서로 다른 통계적 특성을 반영합니다.

  3. Fine‑Tuning Objective

    $$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$

    를 최소화하는 대신, 저자들은 작은 지도 학습 데이터셋에 대해

    $$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$

    를 최소화하여 모델 예측을 직접 정렬합니다.

  4. Parameter‑Efficient Adaptation – 전체 파라미터의 약 0.5 %에 해당하는 아주 작은 어댑터 레이어만 추가함으로써 변환 비용을 낮추고 엣지 디바이스에 빠르게 배포할 수 있도록 합니다.

결과 및 발견

모델 (원본)KV 크기 (GB)MHA2MLA‑VLM 후 KV 크기Top‑1 이미지‑텍스트 검색 Δ추론 지연 ↓
CLIP‑ViT‑B/324.21.2 (≈ 71 % 감소)–0.3 %28 % 빠름
BLIP‑2‑FlanT56.81.9 (≈ 72 % 감소)–0.5 %31 % 빠름
Flamingo‑7B9.52.6 (≈ 73 % 감소)–0.2 %27 % 빠름
  • 성능 손실은 표준 VLM 벤치마크(MS‑COCO, Flickr30K)에서 0.5 % 이하로 유지됩니다.
  • 미세조정 데이터는 매우 적으며: 약 5 k 이미지‑텍스트 쌍(≈ 원본 사전학습 코퍼스의 0.1 %).
  • 8‑bit KV 양자화와 결합하면 전체 메모리가 **≈ 10 %**로 감소하면서 정확도를 유지합니다.

실용적인 시사점

  • Edge Deployment – 개발자는 KV 캐시를 MLA 대응물로 교체함으로써 < 2 GB RAM(예: 스마트폰, AR 안경) 을 가진 디바이스에서 대형 VLM을 실행할 수 있습니다.
  • Cost‑Effective Scaling – 클라우드 추론 서비스는 KV 캐시가 메모리 사용을 지배하지 않게 되면서 GPU당 더 많은 동시 요청을 처리할 수 있습니다.
  • Rapid Prototyping – 기존 VLM 파이프라인(예: 캡셔닝, 비주얼 QA)을 몇 시간의 파인‑튜닝만으로 MLA로 업그레이드할 수 있어, 새 모델을 처음부터 학습할 필요가 없습니다.
  • Interoperability – 이 방법은 모든 트랜스포머 기반 VLM에 적용 가능하므로 HuggingFace의 transformers 라이브러리와 같은 오픈‑소스 프로젝트에 바로 적용할 수 있는 업그레이드입니다.
  • Energy Savings – 작은 KV 풋프린트는 메모리 접근 횟수를 줄여, 그린 AI 이니셔티브와 배터리 구동 디바이스에 큰 장점을 제공합니다.

제한 사항 및 향후 연구

  • Modality‑specific rank selection은 여전히 수동 튜닝이 필요합니다; 자동화된 rank‑selection 알고리즘이 프로세스를 간소화할 수 있습니다.
  • 이 접근법은 fixed transformer architecture를 전제로 합니다; 혼합‑모달리티 cross‑attention 레이어(예: Perceiver‑IO)를 갖는 모델로 확장하는 것은 아직 미해결 과제입니다.
  • 실험은 retrieval and captioning 작업에 집중했으며; MHA2MLA‑VLM을 보다 복잡한 멀티모달 추론(예: video‑language)에 적용하는 것은 향후 연구 과제로 남겨두었습니다.
  • KV 캐시는 크게 압축되었지만 model weights 자체는 변경되지 않았습니다; MLA 변환을 가중치 양자화 또는 프루닝과 결합하면 메모리 절감 효과를 더욱 높일 수 있습니다.

저자

  • Xiaoran Fan
  • Zhichao Sun
  • Tao Ji
  • Lixing Shen
  • Tao Gui

논문 정보

  • arXiv ID: 2601.11464v1
  • 분류: cs.CV, cs.AI, cs.CL, cs.LG
  • 출판일: 2026년 1월 16일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...