[논문] ESS: 오프로드 중심 잠재 캐시 관리 아키텍처 for DeepSeek-V3.2-Exp

발행: (2025년 12월 11일 오후 09:06 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10576v1

Overview

이 논문은 ESS (Extended Sparse Server) 라는 시스템‑레벨 재설계를 소개한다. ESS는 긴 컨텍스트 추론을 위해 희소‑어텐션 메커니즘을 사용하는 대형 언어 모델 DeepSeek‑V3.2‑Exp의 Decode 단계에서 발생하는 메모리 병목 현상을 해결한다. Latent‑Cache 를 GPU 메모리에서 CPU 메모리로 오프로드하면서 지연‑민감 작업은 GPU에 그대로 유지함으로써, ESS는 훨씬 큰 배치 크기를 가능하게 하고 128 K 토큰까지의 컨텍스트에 대해 디코딩 속도를 크게 향상시킨다.

Key Contributions

  • 오프로드‑중심 아키텍처: Latent‑Cache 를 선택적으로 GPU에서 CPU로 이동시키면서 디코드 지연 시간을 희생하지 않는다.
  • 메모리‑분리 배치 스케일링: GPU 메모리 한계와 무관하게 배치 크기를 독립적으로 확대할 수 있다.
  • 고충실도 시뮬레이션 프레임워크: GPU/CPU 대역폭, 캐시 교체, 스케줄링을 모델링하여 현실적인 배포 환경에서 ESS를 평가한다.
  • 성능 향상: 32 K 토큰에서는 69.4 %, 128 K 토큰에서는 **123 %**의 처리량 개선을 baseline DeepSeek‑V3.2‑Exp 서빙 스택과 비교해 달성했다.
  • 비용 효율적인 배포 인사이트: 긴 컨텍스트 워크로드에 대한 GPU 프로비저닝 요구량을 감소시킨다.

Methodology

  1. 병목 현상 프로파일링 – 저자들은 먼저 DeepSeek‑V3.2‑Exp에 계측을 삽입해 Latent‑Cache (토큰당 히든‑스테이트 버퍼)가 시퀀스 길이에 따라 선형적으로 증가하여 GPU 메모리를 빠르게 소진하고 배치 크기를 작게 만든다는 것을 확인했다.
  2. 오프로드 정책 설계 – ESS는 경량 런타임을 도입한다:
    • attention kernelnext‑token sampler 를 GPU에 유지한다 (지연‑민감).
    • Latent‑Cache 를 비동기 DMA 로 pinned CPU 메모리로 스트리밍하여, 캐시 읽기/쓰기가 연산보다 대역폭에 제한된다는 점을 활용한다.
    • 간단한 LRU‑스타일 교체 정책을 사용해 가장 최근의 캐시 슬라이스만 GPU에 남겨 두어, 활성 디코딩 윈도우가 항상 메모리에 존재하도록 한다.
  3. 시뮬레이션 환경 – 사이클‑정밀 시뮬레이터는 다음을 모델링한다:
    • GPU 연산 처리량 (tensor cores).
    • PCIe/CPU‑GPU 대역폭 (경합 포함).
    • 다양한 시퀀스 길이와 배치 크기에서의 캐시 히트/미스 패턴.
      시뮬레이터는 실제 하드웨어 실행과 비교해 보정되어 높은 충실도를 보장한다.
  4. 평가 – 실험에서는 컨텍스트 길이(8 K–128 K 토큰)와 배치 크기를 다양하게 변동시키며, baseline(오프로드 없음)과 ESS를 비교해 처리량(토큰 / 초) 및 메모리 사용량을 측정한다.

Results & Findings

Context LengthBaseline Throughput (tokens/s)ESS Throughput (tokens/s)Improvement
32 K1.12k1.90k69.4 %
64 K0.78k1.45k86 %
128 K0.45k1.00k123 %
  • GPU 메모리 사용량이 baseline >24 GB에서 ESS 적용 시 <12 GB로 감소해 더 큰 배치를 수용할 수 있게 된다.
  • 지연 영향은 최소이다: CPU‑GPU 전송으로 인해 1 K 토큰당 <5 ms 정도만 추가되며, 이는 일반적인 LLM 서빙 SLA 범위 내에 있다.
  • 확장성: 배치 크기가 증가함에 따라 ESS는 거의 선형에 가까운 처리량 향상을 유지하지만, GPU 메모리 제한으로 배치 성장이 정체되는 baseline에서는 이러한 현상이 나타나지 않는다.

Practical Implications

  • 비용 절감 – 데이터센터 운영자는 긴 컨텍스트 서비스(예: 문서 수준 QA, 코드베이스 분석)를 위해 필요한 고용량 GPU 수를 절반으로 줄일 수 있다.
  • 배포 간소화 – 기존 추론 프레임워크(TensorRT, vLLM)는 ESS의 오프로드 런타임을 플러그인 형태로 통합할 수 있어 대규모 코드 수정이 필요하지 않다.
  • 개발자 편의성 – API는 변함없이 컨텍스트 길이와 배치 크기만 요청하면 되고, ESS가 내부 메모리 조정을 자동으로 수행한다.
  • 범용 적용 가능성 – 토큰당 히든 캐시를 유지하는 모든 트랜스포머‑계열 모델(예: Retrieval‑Augmented Generation, RNN‑스타일 디코더)에서도 동일한 오프로드 패턴을 적용할 수 있다.
  • 엣지‑투‑클라우드 하이브리드 – 이 아키텍처는 엣지에 저용량 GPU를 두고 호스트 CPU 메모리를 활용함으로써, 프라이버시‑민감 워크로드에 대한 장치‑내 긴 컨텍스트 추론을 가능하게 한다.

Limitations & Future Work

  • CPU‑GPU 대역폭 의존성 – ESS의 이점은 고속 인터커넥트(PCIe Gen4/5)를 전제로 한다. 느린 버스에서는 오프로드 오버헤드가 지배적일 수 있다.
  • 캐시 교체 정책 – 현재 LRU 방식은 단순하다; 어텐션‑히트맵 기반 예측 등 더 정교한 정책이 전송량을 추가로 감소시킬 가능성이 있다.
  • 다른 모델에 대한 일반화 – 저자들은 기법이 모델에 독립적이라고 주장하지만, 비희소‑어텐션 LLM(예: GPT‑4)에서의 실증 검증은 아직 진행되지 않았다.
  • 실제 지연 테스트 – 논문은 시뮬레이션에 크게 의존하고 있다; 혼합 워크로드 하에서의 프로덕션 규모 지연 측정이 “지연‑민감 컴포넌트는 영향을 받지 않는다”는 주장을 강화할 것이다.

전반적으로 ESS는 긴 컨텍스트 LLM 서빙에서 메모리‑처리량 트레이드‑오프에 직면한 개발자들에게 실용적인 시스템‑레벨 레버를 제공하며, 보다 비용 효율적이고 확장 가능한 배포를 가능하게 한다.

Authors

  • Xinhang Chen
  • Chao Zhang
  • Jiahuan He
  • Wei Liu
  • Jianming Zhang
  • Wenlong Zhou
  • Xiao Li
  • Pai Zeng
  • Shiyong Li
  • Yuanpan Qian
  • Dong Li
  • Zhaogeng Li

Paper Information

  • arXiv ID: 2512.10576v1
  • Categories: cs.DC
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »