1주 전 · ai [Paper] Beluga: 확장 가능하고 효율적인 LLM KVCache 관리를 위한 CXL 기반 메모리 아키텍처 LLM 모델 크기의 급격한 증가와 장기 컨텍스트 추론에 대한 수요가 늘어나면서 메모리는 GPU 가속 서빙 시스템에서 중요한 병목 현상이 되었습니다.