[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 Multi-Head Latent Attention을 Vision-Language Models에 적용
Source: arXiv - 2601.11464v1
개요
이 논문은 기존 비전‑언어 모델(VLM)을 Multi‑Head Latent Attention (MLA) 형식으로 변환하는 경량 프레임워크 MHA2MLA‑VLM을 소개한다. 트랜스포머 추론을 구동하는 지속적으로 증가하는 키‑값(KV) 캐시를 압축함으로써, 이 방법은 메모리 사용량을 크게 줄이고 추론 속도를 높이며, 비용이 많이 드는 전체 모델 사전 학습이 필요하지 않다.
주요 기여
- Parameter‑efficient conversion pipeline: 기존 VLM을 몇 백 번의 학습 단계만으로 MLA에 맞게 전환하는 파라미터 효율적인 파이프라인.
- Modality‑adaptive partial‑RoPE: 이미지와 텍스트 스트림 모두에 필수적인 차원을 유지하고 중복되는 차원은 제거하는 선택적 로터리‑포지션‑임베딩 마스크.
- Modality‑decoupled low‑rank KV compression: 시각 KV 행렬과 텍스트 KV 행렬에 대해 독립적인 저‑랭크 근사화를 적용하여 단일 접근법보다 높은 압축 비율을 달성.
- Activation‑error‑driven fine‑tuning: 모델 출력 차이(원시 파라미터 거리 대신)를 최적화함으로써 전환 후 성능 저하를 크게 감소.
- Compatibility with existing KV‑quantization techniques: 기존 KV 양자화 기법과 호환되어 메모리 절감 효과를 결합 가능.
- Empirical validation on three popular VLMs (예: CLIP‑ViT, BLIP‑2, Flamingo‑style 모델)에서 원본 정확도에 근접하면서 원본 KV 용량의 < 30 %만 사용함을 입증.
방법론
-
Partial‑RoPE Masking – 전통적인 회전 위치 임베딩이 모든 어텐션 헤드에 적용됩니다. 저자들은 주어진 모달리티(시각 vs. 텍스트)와 무관한 차원을 0으로 만드는 마스크를 제안하여, 동일한 트랜스포머 블록이 두 스트림을 교차 오염 없이 처리할 수 있게 합니다.
-
Separate Low‑Rank Approximation – 각 모달리티에 대한 KV 캐시를 다음과 같이 분해합니다
$$
K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
K_{\text{text}} \approx U_T S_T V_T^\top ,
$$여기서 랭크는 모달리티별로 선택됩니다. 이러한 디커플링은 이미지 패치와 토큰 임베딩의 서로 다른 통계적 특성을 존중합니다.
-
Fine‑Tuning Objective –
$$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$
를 최소화하는 대신, 저자들은 작은 감독 데이터셋에 대해
$$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$
를 최소화하여 모델 예측을 직접 정렬합니다.
-
Parameter‑Efficient Adaptation – 전체 파라미터의 약 0.5 %에 해당하는 아주 작은 어댑터 레이어 집합만을 도입함으로써 변환 비용을 낮추고, 엣지 디바이스에 빠르게 배포할 수 있도록 합니다.
결과 및 발견
| 모델 (원본) | KV 크기 (GB) | MHA2MLA‑VLM 적용 후 KV 크기 | Top‑1 이미지‑텍스트 검색 Δ | 추론 지연 ↓ |
|---|---|---|---|---|
| CLIP‑ViT‑B/32 | 4.2 | 1.2 (≈ 71 % 감소) | –0.3 % | 28 % 빠름 |
| BLIP‑2‑FlanT5 | 6.8 | 1.9 (≈ 72 % 감소) | –0.5 % | 31 % 빠름 |
| Flamingo‑7B | 9.5 | 2.6 (≈ 73 % 감소) | –0.2 % | 27 % 빠름 |
- 성능 손실은 표준 VLM 벤치마크(MS‑COCO, Flickr30K)에서 0.5 % 이하로 유지됩니다.
- 미세 조정 데이터는 매우 적습니다: 약 5 k 이미지‑텍스트 쌍(전체 사전 학습 데이터의 ≈ 0.1 %).
- 8‑bit KV 양자화와 결합하면 전체 메모리 사용량이 ≈ 10 % 수준으로 감소하면서 정확도는 유지됩니다.
Practical Implications
- Edge Deployment – 개발자들은 이제 KV 캐시를 MLA 버전으로 교체함으로써 < 2 GB RAM(예: 스마트폰, AR 안경) 을 가진 장치에서 대형 VLM을 실행할 수 있습니다.
- Cost‑Effective Scaling – KV 캐시가 더 이상 메모리 사용을 지배하지 않기 때문에 클라우드 추론 서비스는 GPU당 더 많은 동시 요청을 처리할 수 있습니다.
- Rapid Prototyping – 기존 VLM 파이프라인(예: 캡션 생성, 시각 QA)을 몇 시간의 파인‑튜닝만으로 MLA로 업그레이드할 수 있어 새 모델을 처음부터 학습할 필요가 없습니다.
- Interoperability – 이 방법은 모든 트랜스포머 기반 VLM에 적용 가능하며, HuggingFace의
transformers라이브러리와 같은 오픈‑소스 프로젝트에 바로 적용할 수 있는 업그레이드입니다. - Energy Savings – KV 메모리 사용량이 감소하면 메모리 접근 횟수가 줄어들어 친환경 AI 이니셔티브와 배터리 구동 장치에 큰 장점이 됩니다.
제한 사항 및 향후 연구
- 모달리티별 랭크 선택은 여전히 수동 튜닝이 필요합니다; 자동 랭크 선택 알고리즘을 도입하면 프로세스를 간소화할 수 있습니다.
- 이 접근법은 고정된 트랜스포머 아키텍처를 전제로 합니다; 혼합 모달리티 교차‑어텐션 레이어를 가진 모델(예: Perceiver‑IO)으로 확장하는 것은 아직 미해결 과제입니다.
- 실험은 검색 및 캡션 작업에 초점을 맞추고 있으며; MHA2MLA‑VLM을 보다 복잡한 멀티모달 추론(예: 비디오‑언어) 등에 적용하는 것은 향후 연구 과제로 남겨두었습니다.
- KV 캐시는 크게 압축되었지만 모델 가중치 자체는 변경되지 않았습니다; MLA 변환을 가중치 양자화 또는 프루닝과 결합하면 메모리 절감 효과를 더욱 높일 수 있습니다.
저자
- Xiaoran Fan
- Zhichao Sun
- Tao Ji
- Lixing Shen
- Tao Gui
논문 정보
- arXiv ID: 2601.11464v1
- 분류: cs.CV, cs.AI, cs.CL, cs.LG
- 발행일: 2026년 1월 16일
- PDF: Download PDF