[논문] Tangram: 비균일 KV 캐시 활용으로 효율적인 다중 턴 LLM 서빙 구현

발행: 6일 전 (2026년 6월 5일 AM 12:41 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.06302v1

개요

멀티턴 대형 언어 모델(LLM) 서빙은 일관된 사용자 경험을 위해 필수적이지만, 키-값(KV) 캐시의 선형적 증가가 GPU 메모리와 대역폭에 큰 부담을 줍니다. 비균일 KV 압축은 각 KV 캐시의 개별 중요도를 고려함으로써 더 많은 정보를 효과적으로 보존합니다. 그러나 이러한 KV 캐시 이질성은 메모리 단편화, 스케줄링 복잡성, 커널 활용도 저하 등 다양한 시스템적 문제를 야기하여 기존 LLM 서빙 시스템에서 큰 비효율을 초래합니다. 이러한 문제를 해결하기 위해 우리는 비균일 KV 캐시를 실용화하기 위한 새로운 서빙 시스템인 Tangram을 제안합니다. Tangram은 다음 세 가지 핵심 기술을 통해 시스템 비효율성을 해소합니다: (1) Deterministic Budget Allocation은 각 헤드의 고유 패턴에 기반해 정적인 메모리 사용량을 할당함으로써 동적 스케줄링 오버헤드와 프리필 정지를 완전히 제거합니다; (2) Head Group Page는 유사한 유지 요구를 가진 어텐션 헤드들을 클러스터링하고 독립적인 벡터화 페이지 테이블로 관리하여 물리 메모리 회수를 극대화합니다; (3) Ahead-of-Time (AOT) Load Balancing은 정적 예산 프로파일을 활용해 런타임 오버헤드 없이 GPU 활용도를 균일하게 유지합니다. 실험 결과 Tangram은 기존 베이스라인 대비 최대 2.6배의 처리량 향상을 달성했으며, 모델 정확도는 전혀 손상되지 않았습니다. 구현 코드는 https://github.com/aiha-lab/TANGRAM 에서 공개됩니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG
cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Hyungmin Kim
Minsoo Kim
Hongseok Kim
Jungwook Choi

논문 정보

arXiv ID: 2606.06302v1
분류: cs.LG, cs.SE
발표일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] Tangram: 비균일 KV 캐시 활용으로 효율적인 다중 턴 LLM 서빙 구현

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법