[Paper] 하나의 풀, 두 개의 캐시: 적응형 HBM 파티셔닝을 통한 생성형 추천 서빙 가속

발행: 5일 전 (2026년 5월 6일 PM 12:25 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2605.04450v1

개요

이 논문은 HELM이라는 런타임 시스템을 소개합니다. HELM은 GPU 고대역폭 메모리(HBM)를 생성형 추천 모델에서 사용되는 두 개의 경쟁 캐시, 즉 임베딩 핫 캐시(EMB)와 키‑값(KV) 캐시 사이에 동적으로 분할합니다. 메모리 분할을 지속적으로 조정하고 요청을 지능적으로 라우팅함으로써, HELM은 정적 할당으로 남는 20‑30 %의 지연 시간 차이를 해소하면서도 처리량을 유지합니다.

주요 기여

공동 HBM 할당 및 요청 라우팅 – EMB와 KV 캐시를 별도로 최적화하는 것이 아니라 결합된 자원으로 다루는 최초의 시스템.
3계층 PPO 컨트롤러 – 고정된 기본 정책, 온라인 잔차 어댑터, 버스트 인식 복구 모듈을 결합한 경량 강화학습(근접 정책 최적화) 컨트롤러로, 약 32 µs 내에 결정을 내림.
KV 인식 스케줄링 알고리즘 – 현재 KV 상주 위치, 임베딩 지역성, 노드 부하를 기반으로 추론 요청을 라우팅하여 버스트 시 비용이 많이 드는 H2D 데이터 재충전을 방지함.
실제 환경 평가 – 32노드 A100 클러스터에서 정상, 트렌드, 버스트 워크로드 전반에 걸쳐 P99 지연 시간이 24‑38 % 감소하고 SLO 준수가 93 % 이상임을 보여주며, 최신 최첨단 베이스라인을 능가함.
실용적인 지연 최적성 – 오프라인 최적 EMB/KV 메모리 비율과 0.024–0.029 범위 내에 머무르며, 이는 온라인 시스템에서 드물게 달성되는 정밀도임.

방법론

문제 정의 – 저자들은 EMB/KV 메모리 분할을 연속 제어 문제로 모델링합니다. 목표는 각 GPU의 고정된 HBM 용량을 유지하면서 꼬리 지연을 최소화하는 비율을 선택하는 것입니다.
삼계층 PPO 컨트롤러
- 기본 정책: 과거 워크로드 트레이스를 사용해 오프라인으로 학습하며, 서빙 중에는 고정되어 강력한 사전 지식을 제공합니다.
- 잔차 어댑터: 최근 지연 피드백을 활용해 기본 결정을 미세 조정하는 경량 온라인 학습기이며, 워크로드 변화에 빠르게 적응합니다.
- 버스트 인식 복구: 급격한 트래픽 급증을 감지하고 일시적으로 잔차 어댑터를 무시하여 순간적인 잡음에 과잉 반응하는 것을 방지합니다.
컨트롤러는 컴팩트한 상태 벡터(예: 최근 캐시 히트율, 요청 도착률, 노드 부하)를 소비하고 몇 밀리초마다 새로운 EMB‑to‑KV 비율을 출력합니다.
EMB‑KV‑인식 스케줄링 – 요청이 도착하면 스케줄러는 다음을 확인합니다:
- 해당 요청이 필요로 하는 KV 엔트리가 현재 GPU의 KV 캐시에 이미 존재하는지 여부.
- 임베딩 벡터의 지역성(임베딩이 많이 사용되는 GPU를 선호).
- 각 노드의 현재 부하.
그런 다음 가장 적합한 GPU를 선택하여, 그렇지 않으면 중요한 경로를 정지시킬 수 있는 비용이 큰 호스트‑투‑디바이스(H2D) 재충전을 피합니다.
평가 설정 – 실험은 세 개의 프로덕션 규모 추천 데이터셋, 32노드 NVIDIA A100 클러스터, 그리고 세 가지 워크로드 패턴(안정, 추세, 버스트)을 사용합니다. 베이스라인에는 정적 메모리 파티션, 별도 EMB/KV 최적화기, 그리고 기존 적응형 캐시 관리자가 포함됩니다.

결과 및 발견

지표	정적 최적	이전 적응형	HELM
정적 대비 P99 지연 감소	–	12–18 %	24–38 %
SLO (99‑th percentile) 만족도	70–85 %	80–92 %	93.5–99.6 %
처리량 영향	기준선	~‑2 %	~0 % (unchanged)
결정 지연 (컨트롤러)	N/A	N/A	≈32 µs
메모리 비율 최적성 격차	0.05–0.07	0.03–0.04	0.024–0.029

최적 EMB/KV 분할은 안정적인 상태에서 버스트 상태로 전환될 때 최대 0.35(HBM의 35 %)까지 변동할 수 있으며, HELM은 이를 실시간으로 추적합니다.
단순 재할당(예: 스케줄링 없이 즉시 메모리를 이동)으로 인해 버스트의 >40 %에서 P99 위반이 발생했으며, HELM의 공동 스케줄러가 이러한 위반을 제거했습니다.
극심한 버스트 급증 상황에서도 버스트 인식 복구 컨트롤러가 지연 급증을 제한하여 시스템이 몇 밀리초 내에 최적 비율로 “복구”할 수 있었습니다.

실용적 함의

기존 GPU 클러스터에 배포 가능 – HELM은 표준 추론 프레임워크(e.g., TensorRT, PyTorch) 위에 얇은 런타임 레이어로 동작하며 메트릭 훅(캐시 히트율, 요청 타임스탬프)만 필요합니다.
비용 절감 – 동일한 하드웨어에서 레이턴시를 더 줄임으로써 운영자는 GPU당 더 많은 사용자를 서비스하거나 비용이 많이 드는 노드를 추가하지 않고도 더 엄격한 SLA를 충족할 수 있습니다.
일반화 가능한 패턴 – 3계층 PPO 아키텍처는 여러 인메모리 구조가 고정된 가속기 메모리 예산을 놓고 경쟁하는 모든 시나리오(e.g., 트랜스포머 KV 캐시 vs. 활성화 버퍼)에서 재사용될 수 있습니다.
향상된 사용자 경험 – 낮은 테일 레이턴시는 추천 새로 고침 속도 향상, 클릭률 증가, 제품 팀의 A/B 테스트 결과 개선으로 직접 연결됩니다.
간소화된 운영 – 시스템은 캐시 크기를 수동으로 재조정할 필요 없이 워크로드 추세(e.g., 계절적 트래픽 급증)에 자동으로 적응하여 MLOps 엔지니어의 운영 부담을 줄입니다.

제한 사항 및 향후 작업

GPU‑특화 – HELM은 NVIDIA A100 GPU에서 평가되었습니다; AMD Instinct, Intel Xe GPU와 같은 다른 가속기로 포팅하려면 메모리 계층 구조가 다르기 때문에 기본 정책을 재학습해야 할 수 있습니다.
모델‑불가지론적 가정 – 이 접근법은 임베딩과 KV 캐시가 명확히 분리되어 있다고 가정합니다; 이러한 구조를 결합하거나 대체 메모리 레이아웃을 사용하는 모델은 맞춤형 조정이 필요할 수 있습니다.
학습 오버헤드 – 온라인 잔차 어댑터는 가볍지만, 기본 정책의 초기 오프라인 학습에는 대표적인 워크로드 트레이스가 필요하며, 이는 새로운 서비스에 대해 비용이 많이 들 수 있습니다.
상태 수집의 확장성 – 서브밀리초 수준의 세밀한 캐시 통계를 수집하는 것은 매우 큰 클러스터에서는 병목이 될 수 있습니다; 향후 작업에서는 계층적 또는 샘플링된 텔레메트리를 탐색할 수 있습니다.
멀티‑테넌트 시나리오 확장 – 현재 스케줄러는 모든 요청을 동일하게 취급합니다; 테넌트 간 우선순위 또는 공정성 보장을 포함하는 것은 아직 해결되지 않은 과제입니다.

전반적으로 HELM은 메모리 할당과 요청 라우팅이 긴밀히 결합된 전략이 생성형 추천 서비스의 지연 시간을 크게 줄일 수 있음을 보여주며, GPU 군에서 더 높은 성능을 끌어내고자 하는 운영팀에게 실용적인 청사진을 제공합니다.

저자

Wenjun Yu
Shuguang Han
Amelie Chi Zhou

논문 정보

arXiv ID: 2605.04450v1
분류: cs.DC, cs.IR, cs.LG
출판일: 2026년 5월 6일
PDF: PDF 다운로드

[Paper] 하나의 풀, 두 개의 캐시: 적응형 HBM 파티셔닝을 통한 생성형 추천 서빙 가속

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] 제로샷 상상 음성 디코딩 via 상상-청취 MEG 매핑

[Paper] GRAPHLCP: 구조 인식 그래프에 대한 지역화된 컨포멀 예측

[Paper] VecCISC: 추론 트레이스 클러스터링 및 후보 답변 선택을 통한 신뢰도 기반 자체 일관성 향상