[논문] SpectrumKV: 프리필·디코드 분산 LLM 서비스를 위한 토큰별 혼합 정밀도 KV 캐시 전송

발행: (2026년 6월 7일 PM 10:57 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.08635v1

개요

Prefill‑decode (PD) 디스어그리게이션은 프롬프트 처리와 토큰 생성을 분리하지만, 동시에 키‑밸류(KV) 캐시를 네트워크 페이로드로 전환한다. 기존 PD‑측 KV 축소 방법은 대부분 이진 방식이다: 선택된 토큰만 전체 정밀도로 전송하고 나머지는 전송하지 않는다. 본 논문은 이진 선택이 유용한 설계 공간을 충분히 활용하지 못한다고 주장한다. SpectrumKV는 각 토큰에 정밀도 수준을 할당한다: 어텐션 싱크와 같은 고중요도 토큰은 FP16으로 보호하고, 중간 중요도 토큰은 INT8로, 모델이 허용하는 경우 저중요도 토큰은 INT4로 전송한다. 주요 실용적 복잡성은 INT4 허용도가 모델마다 다르다는 점이다. Qwen2.5‑7B는 INT4 KV 양자화에서 치명적으로 실패하는 반면, Mistral‑7B와 Gemma‑2‑9B는 안정적으로 동작한다. 따라서 SpectrumKV는 가벼운 배포 시점 프로브를 수행한다: 3계층 정책 하에 3개의 공격적인 NIAH 시도를 진행한다. 프로브를 통과한 모델은 FP16+INT8+INT4를 사용하고, 실패한 모델은 FP16+INT8으로 되돌린다. Qwen2.5‑7B‑Instruct, Mistral‑7B‑Instruct‑v0.3, Gemma‑2‑9B‑it을 대상으로 한 실험에서 SpectrumKV는 동일한 전송 예산 하에 품질을 향상시킨다. WikiText‑2에서 정규화된 KV 예산을 50%로 맞췄을 때, SpectrumKV는 퍼플렉시티를 각각 +1.97 %, ‑0.06 %, ‑0.44 % 변화시키며, PDTrim의 +25.85 %, +22.07 %, +35.63 %와 비교한다. 4096 토큰에서 NIAH 검색을 수행했을 때, 적응형 정책은 Qwen에서 공격적인 b=0.3 예산에 52.6 %를 달성해 PDTrim의 26.3 %보다 크게 앞서며, b=0.5에서는 100 %에 도달한다; Mistral과 Gemma는 3계층 정책 하에서도 검색 성능을 유지한다. 전송 경로에 대한 엔드‑투‑엔드 GPU 타이밍은 b=0.5에서 TTFT를 50‑62 % 감소시킨다. 이러한 결과는 PD KV 전송을 토큰 프루닝이 아닌 정밀도 할당 문제로 다루어야 함을 시사한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.LG
  • cs.DC

방법론

자세한 방법론은 전체 논문을 참고한다.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여한다.

저자

  • Yang Pengju

논문 정보

  • arXiv ID: 2606.08635v1
  • 분류: cs.LG, cs.DC
  • 발표일: 2026년 6월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »