[Paper] LLMCache: 트랜스포머 추론에서 가속된 재사용을 위한 레이어별 캐싱 전략
Source: arXiv - 2512.16843v1
개요
The paper introduces LLMCache, a layer‑wise caching system that speeds up inference for transformer models by reusing intermediate activations when new inputs are semantically similar to previously seen ones. By operating at any transformer layer and being model‑agnostic, LLMCache promises noticeable latency reductions without sacrificing accuracy, making it attractive for real‑time and large‑scale deployments.
주요 기여
- Layer‑wise 캐싱 프레임워크는 인코더 전용(예: BERT) 및 디코더 전용(예: GPT‑2) 아키텍처 모두에서 작동합니다.
- Semantic fingerprinting: 새로운 입력이 캐시된 입력과 “충분히 유사”한지를 감지하는 경량 방법으로, 은닉 상태 재사용을 가능하게 합니다.
- Adaptive eviction policies는 캐시 신선도와 메모리 압박 사이의 균형을 맞추어, 오래된 활성화가 모델 품질에 영향을 주는 것을 방지합니다.
- Model‑agnostic 설계: 기본 트랜스포머 가중치나 학습 파이프라인에 변경이 필요하지 않습니다.
- 실증적 검증은 세 가지 벤치마크(SQuAD, WikiText‑103, OpenBookQA)에서 **3.1×**까지 속도 향상을 보이며 < 0.5 % 정확도 손실을 나타냅니다.
방법론
- 지문 생성 – 각 입력 시퀀스에 대해 LLMCache는 “시맨틱 지문”(예: 첫 번째 레이어 토큰 임베딩의 저차원 투영에서 파생된 짧은 해시)이라는 압축된 표현을 계산합니다.
- 유사도 조회 – 생성된 지문을 캐시에 이미 저장된 항목들과 비교합니다. 유사도가 설정 가능한 임계값을 초과하면 시스템은 새로운 입력을 거의 중복된 것으로 간주합니다.
- 활성화 재사용 – 모든 레이어를 다시 계산하는 대신, LLMCache는 가장 깊은 일치 레이어에서 캐시된 은닉 상태를 가져와 해당 지점부터 순방향 전파를 재개합니다.
- 캐시 관리 – 적응형 삭제 전략이 사용 빈도, 최신성, 그리고 현재 모델 파라미터와의 차이에 기반한 신선도 점수를 모니터링하여 어떤 항목을 삭제할지 결정합니다.
- 통합 – 캐싱 로직은 표준 트랜스포머 순전파 과정에 얇은 플러그인 레이어 형태로 감싸져 있어, 재학습이나 모델 특화 수정 없이 바로 적용할 수 있습니다.
Results & Findings
| Model / Task | Baseline Latency (ms) | LLMCache Latency (ms) | Speed‑up | Accuracy Δ |
|---|---|---|---|---|
| BERT‑Base (SQuAD) | 48 | 16 | 3.0× | –0.3 % |
| GPT‑2 (WikiText‑103) | 62 | 20 | 3.1× | –0.4 % |
| BERT‑Large (OpenBookQA) | 71 | 28 | 2.5× | –0.5 % |
- Cache hit rates는 데이터셋의 중복도에 따라 38 %에서 62 % 사이였으며, 많은 실제 입력이 충분한 의미적 겹침을 공유해 재사용의 이점을 얻을 수 있음을 확인했습니다.
- Memory overhead는 단일 GPU에서 10 k 엔트리 크기의 캐시 기준으로 1 GB 이하로 유지되어 일반적인 프로덕션 예산 내에 잘 들어맞습니다.
- Ablation studies 결과, 64비트 지문 차원(fingerprint dimensionality)이 히트율과 충돌 위험 사이에서 최적의 균형을 제공함을 보여주었습니다.
실용적 시사점
-
Real‑time services (chatbots, code assistants, search) can shave tens of milliseconds per request, translating into higher throughput and lower cloud costs.
→ 실시간 서비스 (챗봇, 코드 어시스턴트, 검색)는 요청당 수십 밀리초를 절감할 수 있어 처리량이 증가하고 클라우드 비용이 감소합니다. -
Edge deployments (mobile or IoT devices) gain a viable path to run larger LLMs locally because the cache reduces the number of expensive matrix multiplications.
→ 엣지 배포 (모바일 또는 IoT 디바이스)는 캐시가 비용이 많이 드는 행렬 곱셈 횟수를 줄여주기 때문에 더 큰 LLM을 로컬에서 실행할 수 있는 실현 가능한 경로를 얻게 됩니다. -
Batch processing pipelines (e.g., document summarization) can reuse activations across similar documents, cutting total inference time dramatically without altering the model.
→ 배치 처리 파이프라인 (예: 문서 요약)은 유사한 문서 간에 활성값을 재사용할 수 있어 모델을 변경하지 않고도 전체 추론 시간을 크게 단축합니다. -
Framework integration – The authors released a PyTorch‑compatible library that can be dropped into existing inference servers (e.g., TorchServe, FastAPI) with a single decorator, lowering the barrier for adoption.
→ 프레임워크 통합 – 저자들은 기존 추론 서버(예: TorchServe, FastAPI)에 단일 데코레이터만으로 삽입할 수 있는 PyTorch 호환 라이브러리를 공개했으며, 이를 통해 채택 장벽을 낮춥니다.
제한 사항 및 향후 연구
- 캐시 효율성은 입력 중복성에 의존합니다; 매우 다양한 스트림(예: 무작위 쿼리)은 히트율이 낮아 속도 향상이 제한됩니다.
- 현재 지문(fingerprinting) 방식은 정적이며; 동적이고 학습된 유사도 메트릭은 더 풍부한 의미를 포착할 수 있습니다.
- 캐시 일관성이 모델 업데이트(예: 파인‑튜닝) 시 완전히 탐구되지 않았으며—향후 연구에서는 자동 무효화 또는 버전 관리된 캐시를 조사할 수 있습니다.
- 멀티‑GPU 또는 분산 환경으로 확장하면 동기화 오버헤드가 발생하며; 논문에서는 분산 캐시 일관성을 열린 과제로 남겨두었습니다.
전반적으로 LLMCache는 정확성을 희생하지 않으면서 트랜스포머 추론 성능을 높이고자 하는 개발자를 위한 실용적이고 모델‑불가지론적인 도구이며, 성능‑엔지니어링 도구 상자에 매력적인 추가 요소입니다.
저자
- Harsh Vardhan Bansal
논문 정보
- arXiv ID: 2512.16843v1
- 카테고리: cs.CL, cs.AI
- 출판일: 2025년 12월 18일
- PDF: PDF 다운로드