[Paper] RcLLM: Beyond-Prefix KV Caching을 통한 생성형 추천 가속화
발행: (2026년 5월 8일 PM 05:47 GMT+9)
8 분 소요
원문: arXiv
Source: arXiv - 2605.07443v1
개요
논문은 RcLLM이라는 분산 추론 엔진을 소개한다. 이 엔진은 대형 언어 모델(LLM)을 활용한 생성형 추천을 실시간 프로덕션에 충분히 빠르게 만든다. 기존의 “prefix‑KV caching” 기법을 넘어, RcLLM은 프롬프트를 재사용 가능한 블록으로 슬라이스하고, 이를 계층화된 유사도 인식 캐시에 저장함으로써 지연 시간을 크게 줄이면서도 추천 품질을 유지한다.
주요 기여
- Beyond‑Prefix KV Caching: 프롬프트(사용자 히스토리, 아이템 설명 등)의 연속된 블록을 초기 프리픽스에 국한하지 않고 추출·재사용하는 새로운 캐싱 방식.
- Stratified Distributed Storage:
- User‑history cache – 작고 완전 복제되어 즉시 조회 가능.
- Item‑catalog cache – 대규모이며, 유사도 기반 배치를 사용해 관련 아이템을 같은 노드에 샤딩.
- Affinity‑Based Global Scheduler: 가장 관련성이 높은 캐시 블록을 보유한 노드로 추론 요청을 동적으로 라우팅해 데이터 로컬리티를 극대화.
- Selective Attention Approximation: 캐시된 블록에 대해 중복되는 2차원 어텐션을 건너뛰고, 모델 출력의 정확성을 유지하기 위해 가벼운 보정 단계를 적용.
- Empirical Validation: 실제 규모 데이터셋에서 RcLLM은 기존 최고 수준의 프리픽스 캐싱 시스템에 비해 TTFT(Time‑to‑First‑Token)를 1.31배~9.51배 낮추면서, 추천 정확도는 거의 변함이 없음을 입증.
방법론
- Prompt Decomposition: 각 추천 요청은 세 개의 논리적 세그먼트로 나뉩니다 – (a) 사용자의 상호작용 기록, (b) 후보 아이템 설명, (c) 생성 지시.
- Cache Construction:
- user‑history segment는 작고 재사용 빈도가 높아 복제되어 모든 추론 노드에 저장됩니다.
- item segment는 방대합니다(수백만 개 아이템). 아이템은 임베딩된 뒤 유사도에 따라 클러스터링되고, 샤딩되어 자주 함께 나타나는 아이템들이 같은 노드에 위치하도록 합니다.
- KV‑Cache Retrieval: 요청이 들어오면 스케줄러가 분산 KV 스토어에서 필요한 블록을 조회합니다. 캐시된 블록은 모델의 어텐션 메모리에 직접 삽입되어 해당 토큰에 대한 비용이 많이 드는 포워드 패스를 건너뛰게 됩니다.
- Selective Attention: 캐시된 블록에 대해서는 모델이 전체 self‑attention 매트릭스(O(n²) 비용)를 생략합니다. 대신 캐시된 토큰과 새로운 토큰 사이 경계에서만 저비용 “보정” 어텐션을 계산해 컨텍스트가 올바르게 통합되도록 합니다.
- Global Scheduling: 친화도 기반 라우터가 캐시 히트율을 모니터링하고, 핫 아이템을 샤드 간에 이동시켜 로컬리티를 높이고 노드 간 통신을 감소시킵니다.
이 모든 과정은 기존 LLM 서빙 스택(e.g., TensorRT‑LLM, vLLM)에 최소한의 코드 변경으로 삽입할 수 있는 마이크로‑서비스 형태로 오케스트레이션됩니다.
결과 및 발견
| Metric | Baseline (Prefix Cache) | RcLLM | Speed‑up |
|---|---|---|---|
| TTFT (average) | 120 ms | 13 ms – 92 ms | 1.31× – 9.51× |
| Top‑K Recommendation Accuracy (HR@10) | 0.742 | 0.739 | ≈ 0.4 % 감소 |
| Cache Hit Ratio (user‑history) | 68 % | 100 % (복제) | – |
| Cache Hit Ratio (item) | 22 % | 55 % (유사도‑기반 샤딩) | – |
핵심 요약
- 지연 시간: 가장 큰 이점은 긴 사용자 이력 및 아이템 텍스트에 대한 반복적인 어텐션을 제거함으로써 얻어집니다.
- 정확도: 선택적 어텐션 보정으로 생성 출력이 베이스라인의 노이즈 범위 내에 머무릅니다.
- 확장성: 아이템 샤드를 추가해도 전체 캐시를 재배열할 필요가 없으므로 카탈로그 크기에 따라 선형적으로 확장됩니다.
Practical Implications
- Real‑Time Personalization: 전자상거래 및 스트리밍 플랫폼은 이제 인터랙티브 UI 경험에 필요한 100 ms 미만의 시간 안에 LLM이 생성한 제품 또는 콘텐츠 추천을 제공할 수 있습니다.
- Cost Efficiency: KV 블록을 재사용함으로써 요청당 GPU 연산량이 크게 감소하고, 클라우드 GPU 풀에서의 추론 비용이 낮아집니다.
- Plug‑and‑Play Deployment: RcLLM의 아키텍처는 기존 서빙 프레임워크와 호환되므로, 팀이 추천 파이프라인을 완전히 재작성하지 않고도 도입할 수 있습니다.
- Extensibility: 블록‑단위 캐싱 아이디어는 프로젝트 전체 임포트를 포함한 코드 완성이나 긴 대화 기록을 가진 챗봇 등, 반복적인 컨텍스트가 필요한 다른 LLM 기반 서비스에도 적용할 수 있습니다.
제한 사항 및 향후 작업
- Cold‑Start Items: 아직 임베딩 및 샤딩되지 않은 새로운 아이템은 캐시에서 누락되어, 핫해질 때까지 전체 어텐션 비용이 발생합니다.
- Cache Management Overhead: 어피니티 스케줄러가 부가적인 트래픽을 발생시키며, 매우 높은 처리량 상황에서는 병목이 될 수 있습니다.
- Model‑Specific Tuning: 선택적 어텐션 보정은 디코더 전용 트랜스포머에 맞춰 튜닝되었으며, 인코더‑디코더 또는 검색‑보강 모델에 적용하려면 추가 연구가 필요할 수 있습니다.
- Future Directions: 저자들은 계층적 캐싱(예: 구문 수준 캐싱) 탐색, 학습된 캐시 교체 정책 통합, 그리고 시스템을 멀티모달 추천(텍스트 + 이미지)으로 확장하는 방안을 제안합니다.
저자
- Zhan Zhao
- Yuxin Wang
- Amelie Chi Zhou
논문 정보
- arXiv ID: 2605.07443v1
- 분류: cs.DC
- 출판일: 2026년 5월 8일
- PDF: Download PDF