[Paper] InnerQ: 하드웨어 인식 튜닝 프리 KV 캐시 양자화 for Large Language Models
발행: (2026년 2월 27일 오전 01:50 GMT+9)
10 분 소요
원문: arXiv
Source: arXiv - 2602.23200v1
Overview
대형 언어 모델(LLM)은 텍스트를 생성하는 동안 키‑값(KV) 캐시를 유지하며, 캐시 크기는 생성된 시퀀스 길이에 따라 선형적으로 증가합니다. 이는 추론 과정에서 빠르게 메모리 사용량의 주요 원인이 되며, 특히 대역폭이 제한된 GPU 환경에서 더욱 두드러집니다. InnerQ는 하드웨어를 고려한 튜닝이 필요 없는 양자화 방식을 제안합니다. 이 방법은 KV 캐시를 압축하고 메모리 트래픽을 감소시키며 디코딩 속도를 높입니다—모델의 답변 품질을 손상시키지 않으면서 말이죠.
Key Contributions
- Inner‑dimension group‑wise quantization – 내부(숨겨진) 차원을 따라 캐시 엔트리를 그룹화하여, 디양자화를 이후의 벡터‑행렬 곱과 정렬합니다.
- Scale‑factor reuse across GPU compute units – 디양자화에 필요한 메모리 읽기 횟수를 줄여, 기존 KV‑cache 양자화기보다 최대 22 % 빠른 추론을 제공합니다.
- Hybrid quantization per group – 로컬 통계에 기반해 대칭 또는 비대칭 양자화를 자동으로 선택하여, 공격적인 압축에서도 수치 정확성을 유지합니다.
- High‑precision windows – 최신 토큰과 “attention‑sink” 토큰을 높은 정밀도로 유지해 이상치 누출을 방지합니다.
- One‑time per‑channel key normalization – 프리필 단계에서 계산되어 쿼리에 통합되며, 추가 런타임 오버헤드를 없앱니다.
- Empirical validation on LLaMA models – 전체 정밀도 캐시와 비교해 거의 동일한 few‑shot GSM8K 점수를 보여주며, 기존 KV‑cache 양자화 기준을 능가합니다.
방법론
1. 캐시 레이아웃 및 그룹화
- KV 캐시는 두 개의 행렬, 키 (K)와 값 (V)으로 구성됩니다.
- 이전 연구들이 행(외부 차원)을 그룹화한 것과 달리, InnerQ는 열(숨겨진 차원)을 그룹화합니다. 각 그룹은 연속된 숨겨진 유닛의 작은 블록(예: 64‑dim)을 포함합니다.
2. 양자화 방식
- 각 그룹에 대해 기본 통계값(최소, 최대, 평균, 분산)을 계산합니다.
- 분포가 0을 중심으로 할 경우 대칭 양자화를 선택하고, 그렇지 않으면 비대칭 양자화를 선택하여 왜곡을 포착합니다.
- 그룹을 4‑bit 정수(논문에서는 8‑bit도 탐색)와 전체 그룹에 대한 공유 스케일 팩터로 인코딩합니다.
3. 어텐션에 맞춘 디양자화
- 어텐션 단계에서 쿼리 벡터는 전치된 키 행렬과 곱해집니다. 그룹화가 내부 차원과 일치하기 때문에 디양자화를 GEMV(벡터‑행렬 곱) 커널과 결합할 수 있습니다.
- 공유 스케일 팩터는 계산 유닛당 한 번 로드되고 그룹 내 모든 요소에 재사용되어 메모리 대역폭을 크게 절감합니다.
4. 정밀도 윈도우 및 정규화
- 가장 최근 N 토큰(예: 마지막 32개)과 “싱크” 토큰(많은 어텐션을 받는 토큰)은 오류 누적을 방지하기 위해 높은 정밀도(FP16)로 유지됩니다.
- 키 행렬에 대한 채널별(숨겨진 유닛별) 스케일링은 초기 프롬프트(프리필) 단계에서 한 번 계산되어 쿼리 벡터에 내장되므로 런타임에 추가 정규화 단계가 필요하지 않습니다.
5. 구현
- 단일 패스에서 그룹별 디양자화 + GEMV를 수행하는 맞춤형 CUDA 커널에 통합되었습니다.
- 추가적인 하이퍼파라미터 튜닝이 필요 없으며, 알고리즘이 자동으로 양자화 방식을 결정합니다.
결과 및 발견
| 모델 (LLaMA) | KV‑Cache 크기 감소 | 디코딩 지연 시간 vs. FP16 | 정확도 (GSM8K few‑shot) |
|---|---|---|---|
| 7B | ~4× (4‑bit) | ‑22 % vs. prior KV‑quantizer, ‑88 % vs. pure FP16 GEMV | ≈ 99 % of full‑precision score |
| 13B | ~4× (4‑bit) | Same trend, up to 22 % speedup | No statistically significant drop |
| 30B | ~4× (4‑bit) | Consistent latency gains | Slight (<0.2 %) degradation, still better than competing quantizers |
- 메모리 트래픽이 크게 감소했으며, 각 그룹이 단일 스케일 팩터를 공유해 토큰당 32‑bit 읽기 횟수를 줄였습니다.
- 하이브리드 양자화는 그렇지 않으면 어텐션 점수를 폭발시킬 수 있는 치명적인 이상값을 방지했습니다.
- 고정밀 윈도우가 정확도 유지에 가장 큰 기여를 했으며, 특히 긴 프롬프트(>1 k 토큰)에서 효과적이었습니다.
실용적 함의
- 일반 GPU에 대한 배포 (예: RTX 3090, A100)는 VRAM 한도에 도달하지 않고 더 긴 컨텍스트를 처리할 수 있어, 보다 풍부한 대화형 에이전트나 문서 수준 요약을 가능하게 합니다.
- 비용 절감: KV 캐시가 작아지면 동일한 처리량을 위해 필요한 GPU 인스턴스 수가 줄어들어 클라우드 컴퓨팅 비용을 직접 감소시킵니다.
- 프레임워크 통합: 이 접근 방식은 캐시 저장 형식과 어텐션 커널만 변경하므로 기존 트랜스포머 라이브러리(예: Hugging Face Transformers, vLLM)와 호환됩니다. 모델 재학습이나 파인튜닝이 필요하지 않습니다.
- 엣지 AI 시나리오: 메모리가 제한된 온‑디바이스 추론(예: Jetson, 모바일 GPU)에서 InnerQ의 4‑bit 캐시는 이전에 불가능했던 LLM 추론을 가능하게 합니다.
- 향후 하드웨어 설계: 내부 차원 그룹화는 작은 블록에서 작동하는 차세대 텐서‑코어 명령과 잘 맞아, 하드웨어 벤더가 이 패턴을 더욱 가속화할 수 있는 프리미티브를 제공할 가능성을 시사합니다.
제한 사항 및 향후 작업
- 고정 그룹 크기: 현재 구현은 정적 그룹 크기(예: 64)를 사용합니다. 토큰‑별 통계에 기반한 적응형 그룹화는 압축 효율을 더욱 향상시킬 수 있습니다.
- 정밀도 트레이드‑오프: 4‑비트는 평가된 모델에 잘 작동하지만, 초대형 모델(>70B)은 허용 가능한 정확도 범위 내에 머무르기 위해 4‑비트와 8‑비트 그룹의 하이브리드가 필요할 수 있습니다.
- 하드웨어 의존성: 가장 큰 속도 향상은 높은 메모리 대역폭을 가진 NVIDIA GPU에서 관찰됩니다; 다른 가속기(TPU, AMD GPU)에서의 성능은 아직 정량화되지 않았습니다.
- 분포 외 프롬프트: 평가가 GSM8K 및 표준 벤치마크에 초점을 맞추고 있어, 매우 노이즈가 많거나 적대적인 프롬프트에 대한 견고성은 충분히 탐구되지 않았습니다.
- 향후 방향은 저자에 의해 다음과 같이 제안되었습니다:
- 향후 GPU 텐서‑코어 API와 함께 양자화기를 공동 설계하기.
- 값 캐시를 보다 공격적으로 압축하도록 방법을 확장하기.
- 양자화 오류를 추가로 감소시키기 위해 학습된 그룹별 스케일링 팩터를 통합하기.
저자
- Sayed Mohammadreza Tayaranian Hosseini
- Amir Ardakani
- Warren J. Gross
논문 정보
- arXiv ID: 2602.23200v1
- 분류: cs.LG, cs.CL
- 발표일: 2026년 2월 26일
- PDF: Download PDF