[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용

발행: 3주 전 (2026년 1월 17일 오전 02:45 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2601.11464v1

Overview

이 논문은 기존 비전‑언어 모델(VLM)을 Multi‑Head Latent Attention (MLA) 형식으로 변환하는 경량 프레임워크 MHA2MLA‑VLM을 소개합니다. 트랜스포머 추론을 구동하는 지속적으로 증가하는 키‑밸류(KV) 캐시를 압축함으로써, 이 방법은 메모리 사용량을 크게 줄이고 추론 속도를 높이며, 비용이 많이 드는 전체 모델 사전 학습 없이도 동작합니다.

주요 기여

Parameter‑efficient conversion pipeline: 기존 VLM을 MLA에 맞게 개조하는 파라미터 효율적인 변환 파이프라인으로, 수백 단계의 학습만 필요합니다.
Modality‑adaptive partial‑RoPE: 이미지와 텍스트 스트림 모두에 필수적인 차원을 유지하고 중복 차원은 제거하는 선택적 로터리 포지션 임베딩 마스크.
Modality‑decoupled low‑rank KV compression: 시각 및 텍스트 KV 행렬에 대해 독립적인 저랭크 근사화를 적용하여 단일 방식보다 높은 압축 비율을 달성합니다.
Activation‑error‑driven fine‑tuning: 모델 출력 차이(원시 파라미터 거리 대신)를 최적화함으로써 변환 후 성능 저하를 크게 감소시킵니다.
Compatibility with existing KV‑quantization techniques, 기존 KV‑quantization 기법과의 호환성을 제공하여 메모리 절감 효과를 결합합니다.
Empirical validation on three popular VLMs (예: CLIP‑ViT, BLIP‑2, Flamingo‑스타일 모델)에서 원본 KV 용량의 30 % 미만으로 원본 정확도에 근접함을 입증했습니다.

Source: …

방법론

Partial‑RoPE Masking – 기존의 회전 위치 임베딩은 모든 어텐션 헤드에 적용됩니다. 저자들은 시각 모달리티와 텍스트 모달리티에 대해 관련 없는 차원을 0으로 만드는 마스크를 제안하여, 동일한 트랜스포머 블록이 두 스트림을 교차 오염 없이 처리할 수 있게 합니다.
Separate Low‑Rank Approximation – 각 모달리티에 대한 KV 캐시는 다음과 같이 분해됩니다

$$
K_{\text{vision}} \approx U_V S_V V_V^\top ,\qquad
K_{\text{text}} \approx U_T S_T V_T^\top ,
$$

여기서 랭크는 모달리티별로 선택됩니다. 이 분리 방식은 이미지 패치와 토큰 임베딩의 서로 다른 통계적 특성을 반영합니다.
Fine‑Tuning Objective –

$$| \theta_{\text{orig}} - \theta_{\text{MLA}}|_2,$$

를 최소화하는 대신, 저자들은 작은 지도 학습 데이터셋에 대해

$$| f_{\text{orig}}(x) - f_{\text{MLA}}(x) |_2$$

를 최소화하여 모델 예측을 직접 정렬합니다.
Parameter‑Efficient Adaptation – 전체 파라미터의 약 0.5 %에 해당하는 아주 작은 어댑터 레이어만 추가함으로써 변환 비용을 낮추고 엣지 디바이스에 빠르게 배포할 수 있도록 합니다.

결과 및 발견

모델 (원본)	KV 크기 (GB)	MHA2MLA‑VLM 후 KV 크기	Top‑1 이미지‑텍스트 검색 Δ	추론 지연 ↓
CLIP‑ViT‑B/32	4.2	1.2 (≈ 71 % 감소)	–0.3 %	28 % 빠름
BLIP‑2‑FlanT5	6.8	1.9 (≈ 72 % 감소)	–0.5 %	31 % 빠름
Flamingo‑7B	9.5	2.6 (≈ 73 % 감소)	–0.2 %	27 % 빠름

성능 손실은 표준 VLM 벤치마크(MS‑COCO, Flickr30K)에서 0.5 % 이하로 유지됩니다.
미세조정 데이터는 매우 적으며: 약 5 k 이미지‑텍스트 쌍(≈ 원본 사전학습 코퍼스의 0.1 %).
8‑bit KV 양자화와 결합하면 전체 메모리가 **≈ 10 %**로 감소하면서 정확도를 유지합니다.

실용적인 시사점

Edge Deployment – 개발자는 KV 캐시를 MLA 대응물로 교체함으로써 < 2 GB RAM(예: 스마트폰, AR 안경) 을 가진 디바이스에서 대형 VLM을 실행할 수 있습니다.
Cost‑Effective Scaling – 클라우드 추론 서비스는 KV 캐시가 메모리 사용을 지배하지 않게 되면서 GPU당 더 많은 동시 요청을 처리할 수 있습니다.
Rapid Prototyping – 기존 VLM 파이프라인(예: 캡셔닝, 비주얼 QA)을 몇 시간의 파인‑튜닝만으로 MLA로 업그레이드할 수 있어, 새 모델을 처음부터 학습할 필요가 없습니다.
Interoperability – 이 방법은 모든 트랜스포머 기반 VLM에 적용 가능하므로 HuggingFace의 transformers 라이브러리와 같은 오픈‑소스 프로젝트에 바로 적용할 수 있는 업그레이드입니다.
Energy Savings – 작은 KV 풋프린트는 메모리 접근 횟수를 줄여, 그린 AI 이니셔티브와 배터리 구동 디바이스에 큰 장점을 제공합니다.

제한 사항 및 향후 연구

Modality‑specific rank selection은 여전히 수동 튜닝이 필요합니다; 자동화된 rank‑selection 알고리즘이 프로세스를 간소화할 수 있습니다.
이 접근법은 fixed transformer architecture를 전제로 합니다; 혼합‑모달리티 cross‑attention 레이어(예: Perceiver‑IO)를 갖는 모델로 확장하는 것은 아직 미해결 과제입니다.
실험은 retrieval and captioning 작업에 집중했으며; MHA2MLA‑VLM을 보다 복잡한 멀티모달 추론(예: video‑language)에 적용하는 것은 향후 연구 과제로 남겨두었습니다.
KV 캐시는 크게 압축되었지만 model weights 자체는 변경되지 않았습니다; MLA 변환을 가중치 양자화 또는 프루닝과 결합하면 메모리 절감 효과를 더욱 높일 수 있습니다.

저자

Xiaoran Fan
Zhichao Sun
Tao Ji
Lixing Shen
Tao Gui

논문 정보

arXiv ID: 2601.11464v1
분류: cs.CV, cs.AI, cs.CL, cs.LG
출판일: 2026년 1월 16일
PDF: Download PDF

[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용

Overview

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] PubMed-OCR: PMC 오픈 액세스 OCR 주석

[Paper] LLMs can Compress LLMs: 에이전트에 의한 적응형 프루닝

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축