[Paper] SageSched: 효율적인 LLM 스케줄링, 수요 불확실성과 하이브리드성에 대응

발행: (2026년 3월 9일 PM 12:20 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.07917v1

Overview

대형 언어 모델(LLM) 추론은 챗 어시스턴트부터 코드 생성기까지 모든 분야의 핵심 서비스가 되고 있습니다. 하지만 각 요청의 출력 길이가 완료될 때까지 알 수 없고, 작업 부하가 GPU 연산과 메모리 모두에 큰 부담을 주기 때문에 이러한 모델을 효율적으로 서비스하는 것은 어렵습니다. 논문 **“SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity”**는 출력 길이를 예측하고, 요청의 실제 비용을 모델링하며, 불확실성을 고려한 배치 결정을 내리는 스케줄러를 소개합니다—전체 시스템 효율성을 최대 28 % 향상시킵니다.

핵심 기여

  • 경량 출력‑길이 예측기 – 프롬프트 텍스트와 최근 추론 결과를 결합하여 최종 토큰 수의 확률 분포를 추정합니다.
  • 하이브리드 비용 모델 – 연산 사이클과 메모리 압력을 동시에 고려하여 추론 요청의 실제 “서비스 비용”을 정량화합니다.
  • 불확실성 인식 스케줄링 정책 – 예측된 길이 분포를 활용해 메모리 제한을 준수하면서 처리량을 최대화하도록 GPU에 요청을 할당합니다.
  • 포괄적인 평가 – 다양한 GPU 클러스터, 배치 크기 및 요청 혼합을 사용한 실제 테스트베드에서 최신 휴리스틱 대비 평균 **28.7 %**의 효율성 향상을 보여줍니다.

방법론

  1. 데이터 기반 길이 예측

    • 각 들어오는 요청에 대해 SageSched는 프롬프트(예: 토큰 수, 어휘 패턴)와 동일 모델에 대한 가장 최근 완료된 추론에서 특징을 추출합니다.
    • 가벼운 회귀 모델(예: 얕은 신경망)은 확률 분포를 출력하여 가능한 출력 길이들을 하나의 점 추정이 아니라 분포 형태로 제공합니다.
  2. 하이브리드 비용 추정

    • 스케줄러는 두 가지 요소를 계산합니다:
      • 연산 비용 – 예측된 토큰 수를 기반으로 추정된 FLOP 수.
      • 메모리 비용 – 프롬프트와 출력 길이에 따라 증가하는 GPU 메모리 사용량(모든 중간 활성화를 저장해야 하는 KV‑캐시 때문에).
    • 전체 비용은 실제 하드웨어 구성에서의 병목 현상을 반영하도록 가중합으로 결합됩니다.
  3. 불확실성 인식 배치

    • “가장 여유 있는” GPU에 요청을 할당하는 대신, SageSched는 길이 분포에 대해 예상 한계 효용을 각 GPU에 대해 평가합니다.
    • 전체 시스템 지연시간의 예상 증가를 최소화하면서 메모리 사용량을 안전 임계값 이하로 유지하는 GPU를 선택합니다.
    • 이 정책은 요청당 O(N) 시간(여기서 N은 GPU 수)으로 실행되어 고처리량 서비스 스택에 적합합니다.

결과 및 발견

지표기준 (휴리스틱)SageSched개선
처리량 (req/s)1,2001,540+28.3 %
평균 지연시간 (ms)210165–21 %
GPU 메모리 활용도92 % (피크)78 % (피크)–15 %
GPU 연산 활용도84 %92 %+9 %
  • 이 향상은 다양한 모델 크기(7B‑30B 파라미터)와 이기종 클러스터(A100, H100) 전반에 걸쳐 유지됩니다.
  • 워크로드에 짧은 생성과 긴 생성이 혼합될 때, SageSched의 불확실성 인식 의사결정은 순진한 스케줄러를 마비시키는 “메모리 부족” 상황을 방지합니다.
  • Ablation 연구에 따르면 길이 예측기 또는 하이브리드 비용 모델 중 하나를 제거하면 효율성 향상이 약 10 %로 감소하며, 두 구성 요소가 모두 필수임을 확인합니다.

실용적인 시사점

  • 클라우드 AI 제공업체는 GPU당 더 많은 추론 요청을 처리할 수 있어 하드웨어 비용을 절감하거나 최종 사용자에게 더 낮은 가격을 제공할 수 있습니다.
  • DevOps 팀은 클러스터 규모를 결정하는 확정적인 방법을 얻습니다: 스케줄러의 비용 모델을 용량 계획 도구에 입력하여 과다 프로비저닝을 방지합니다.
  • 애플리케이션 개발자(예: 챗봇 플랫폼)는 스케줄러가 장기 생성에 대한 메모리를 사전에 예약함으로써 지연 시간 급증이 더 부드러워지는 것을 경험합니다.
  • 제한된 GPU 메모리를 가진 엣지 또는 온프레미스 배포는 메모리 인식 기능 덕분에 특히 이점을 얻으며, 동일한 하드웨어에서 더 큰 모델을 실행할 수 있습니다.

SageSched를 기존 추론 서빙 스택(예: TensorRT‑LLM, vLLM, 또는 OpenAI의 Triton)에 통합하려면 주로 경량 예측기를 연결하고 요청 배치 로직을 교체하면 되며, 큰 구조적 변경은 필요하지 않습니다.

제한 사항 및 향후 작업

  • 현재 예측기는 단일 모델의 과거 요청 로그를 기반으로 학습되었습니다; 모델 간 일반화를 위해서는 추가적인 파인튜닝이 필요할 수 있습니다.
  • SageSched는 정적 GPU 풀을 전제로 합니다; 동적 스케일링(노드 추가/제거)은 아직 탐구되지 않았습니다.
  • 비용 모델은 컴퓨팅과 메모리를 단순히 가산적으로 취급합니다; 대역폭 경쟁과 같은 더 복잡한 상호작용을 모델링하면 보다 정밀한 스케줄링이 가능할 것입니다.
  • 향후 연구 방향으로는 멀티‑테넌트 환경으로 프레임워크를 확장하고, 에너지‑인식 스케줄링을 도입하며, 워크로드 변화에 실시간으로 적응하는 강화 학습 정책을 탐색하는 것이 포함됩니다.

저자

  • Zhenghao Gan
  • Yichen Bao
  • Yifei Liu
  • Chen Chen
  • Quan Chen
  • Minyi Guo

논문 정보

  • arXiv ID: 2603.07917v1
  • 카테고리: cs.DC
  • 발행일: 2026년 3월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »