[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 Multi-Head Latent Attention을 Vision-Language Models에 적용

발행: (2026년 1월 17일 오전 02:45 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.11464v1

개요

이 논문은 기존 비전‑언어 모델(VLM)을 Multi‑Head Latent Attention (MLA) 형식으로 변환하는 경량 프레임워크 MHA2MLA‑VLM을 소개한다. 트랜스포머 추론을 구동하는 지속적으로 증가하는 키‑값(KV) 캐시를 압축함으로써, 이 방법은 메모리 사용량을 크게 줄이고 추론 속도를 높이며, 비용이 많이 드는 전체 모델 사전 학습이 필요하지 않다.

주요 기여

  • Parameter‑efficient conversion pipeline: 기존 VLM을 몇 백 번의 학습 단계만으로 MLA에 맞게 전환하는 파라미터 효율적인 파이프라인.
  • Modality‑adaptive partial‑RoPE: 이미지와 텍스트 스트림 모두에 필수적인 차원을 유지하고 중복되는 차원은 제거하는 선택적 로터리‑포지션‑임베딩 마스크.
  • Modality‑decoupled low‑rank KV compression: 시각 KV 행렬과 텍스트 KV 행렬에 대해 독립적인 저‑랭크 근사화를 적용하여 단일 접근법보다 높은 압축 비율을 달성.
  • Activation‑error‑driven fine‑tuning: 모델 출력 차이(원시 파라미터 거리 대신)를 최적화함으로써 전환 후 성능 저하를 크게 감소.
  • Compatibility with existing KV‑quantization techniques: 기존 KV 양자화 기법과 호환되어 메모리 절감 효과를 결합 가능.
  • Empirical validation on three popular VLMs (예: CLIP‑ViT, BLIP‑2, Flamingo‑style 모델)에서 원본 정확도에 근접하면서 원본 KV 용량의 < 30 %만 사용함을 입증.

방법론

  1. Partial‑RoPE Masking – 전통적인 회전 위치 임베딩이 모든 어텐션 헤드에 적용됩니다. 저자들은 주어진 모달리티(시각 vs. 텍스트)와 무관한 차원을 0으로 만드는 마스크를 제안하여, 동일한 트랜스포머 블록이 두 스트림을 교차 오염 없이 처리할 수 있게 합니다.

  2. Separate Low‑Rank Approximation – 각 모달리티에 대한 KV 캐시를 다음과 같이 분해합니다

    $$
    K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
    K_{\text{text}} \approx U_T S_T V_T^\top ,
    $$

    여기서 랭크는 모달리티별로 선택됩니다. 이러한 디커플링은 이미지 패치와 토큰 임베딩의 서로 다른 통계적 특성을 존중합니다.

  3. Fine‑Tuning Objective

    $$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$

    를 최소화하는 대신, 저자들은 작은 감독 데이터셋에 대해

    $$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$

    를 최소화하여 모델 예측을 직접 정렬합니다.

  4. Parameter‑Efficient Adaptation – 전체 파라미터의 약 0.5 %에 해당하는 아주 작은 어댑터 레이어 집합만을 도입함으로써 변환 비용을 낮추고, 엣지 디바이스에 빠르게 배포할 수 있도록 합니다.

결과 및 발견

모델 (원본)KV 크기 (GB)MHA2MLA‑VLM 적용 후 KV 크기Top‑1 이미지‑텍스트 검색 Δ추론 지연 ↓
CLIP‑ViT‑B/324.21.2 (≈ 71 % 감소)–0.3 %28 % 빠름
BLIP‑2‑FlanT56.81.9 (≈ 72 % 감소)–0.5 %31 % 빠름
Flamingo‑7B9.52.6 (≈ 73 % 감소)–0.2 %27 % 빠름
  • 성능 손실은 표준 VLM 벤치마크(MS‑COCO, Flickr30K)에서 0.5 % 이하로 유지됩니다.
  • 미세 조정 데이터는 매우 적습니다: 약 5 k 이미지‑텍스트 쌍(전체 사전 학습 데이터의 ≈ 0.1 %).
  • 8‑bit KV 양자화와 결합하면 전체 메모리 사용량이 ≈ 10 % 수준으로 감소하면서 정확도는 유지됩니다.

Practical Implications

  • Edge Deployment – 개발자들은 이제 KV 캐시를 MLA 버전으로 교체함으로써 < 2 GB RAM(예: 스마트폰, AR 안경) 을 가진 장치에서 대형 VLM을 실행할 수 있습니다.
  • Cost‑Effective Scaling – KV 캐시가 더 이상 메모리 사용을 지배하지 않기 때문에 클라우드 추론 서비스는 GPU당 더 많은 동시 요청을 처리할 수 있습니다.
  • Rapid Prototyping – 기존 VLM 파이프라인(예: 캡션 생성, 시각 QA)을 몇 시간의 파인‑튜닝만으로 MLA로 업그레이드할 수 있어 새 모델을 처음부터 학습할 필요가 없습니다.
  • Interoperability – 이 방법은 모든 트랜스포머 기반 VLM에 적용 가능하며, HuggingFace의 transformers 라이브러리와 같은 오픈‑소스 프로젝트에 바로 적용할 수 있는 업그레이드입니다.
  • Energy Savings – KV 메모리 사용량이 감소하면 메모리 접근 횟수가 줄어들어 친환경 AI 이니셔티브와 배터리 구동 장치에 큰 장점이 됩니다.

제한 사항 및 향후 연구

  • 모달리티별 랭크 선택은 여전히 수동 튜닝이 필요합니다; 자동 랭크 선택 알고리즘을 도입하면 프로세스를 간소화할 수 있습니다.
  • 이 접근법은 고정된 트랜스포머 아키텍처를 전제로 합니다; 혼합 모달리티 교차‑어텐션 레이어를 가진 모델(예: Perceiver‑IO)으로 확장하는 것은 아직 미해결 과제입니다.
  • 실험은 검색 및 캡션 작업에 초점을 맞추고 있으며; MHA2MLA‑VLM을 보다 복잡한 멀티모달 추론(예: 비디오‑언어) 등에 적용하는 것은 향후 연구 과제로 남겨두었습니다.
  • KV 캐시는 크게 압축되었지만 모델 가중치 자체는 변경되지 않았습니다; MLA 변환을 가중치 양자화 또는 프루닝과 결합하면 메모리 절감 효과를 더욱 높일 수 있습니다.

저자

  • Xiaoran Fan
  • Zhichao Sun
  • Tao Ji
  • Lixing Shen
  • Tao Gui

논문 정보

  • arXiv ID: 2601.11464v1
  • 분류: cs.CV, cs.AI, cs.CL, cs.LG
  • 발행일: 2026년 1월 16일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »