[논문] 하이브리드 맘바‑트랜스포머 추론을 위한 비대칭 가상 메모리 페이징

발행: (2026년 5월 21일 PM 09:37 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2605.22416v1

개요

Jamba와 같은 하이브리드 언어 모델은 어텐션 레이어와 상태공간 모델(SSM)을 결합하여, 서로 상반된 특성을 가진 두 종류의 메모리 캐시를 만든다: 키‑값(KV) 캐시는 시퀀스 길이에 따라 선형적으로 증가하고, SSM 상태는 레이어당 고정된 크기를 유지한다. 현재의 추론 엔진은 이를 제대로 다루지 못한다. 통합 풀은 SSM 상태를 어텐션 페이지 크기에 맞춰 패딩하여 최대 7.3배의 용량을 낭비한다. 정적 이중 풀은 요청 간 프롬프트 분포가 변할 때 적응하지 못한다. 우리는 **비대칭 가상 메모리 페이징(AVMP)**을 제안한다. 할당자는 두 캐시 유형을 물리적으로 구분된 풀로 나누어 통합 가상 주소 공간 뒤에 배치하고, 하나의 풀이 부족해지면 다른 풀로 용량을 이동한다. 이동은 할당 실패 시에만 트리거되어 동작이 결정론적이다. 우리는 RTX 3060 12GB 환경에서 270개의 합성 셀과 60개의 ShareGPT 트레이스 재생 셀에 대해 AVMP를 평가했다. 메모리 부족(OOM) 이벤트가 7.6 % 감소하고, 요청 처리량이 합성 워크로드에서는 1.83배 ~ 13.3배, ShareGPT에서는 2.36배 향상되었다. 모든 향상은 페어드 부트스트랩 95 % 신뢰구간 내에서 유지된다. 단계별 시간 분석은 두 가지 뚜렷한 메커니즘을 보여준다: 용량 압박 워크로드에서의 짧은 OOM 복구와 KV 중심 워크로드에서의 빠른 할당 호출. 구현은 순수 파이썬이며, Triton 통합은 향후 과제이다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.LG
  • cs.DC
  • cs.PF

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여한다.

저자

  • An Xuan Nguyen

논문 정보

  • arXiv ID: 2605.22416v1
  • 분류: cs.LG, cs.DC, cs.PF
  • 발표일: 2026년 5월 21일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »