[Paper] SageSched: 효율적인 LLM 스케줄링, 수요 불확실성과 하이브리드성에 대응

발행: 2일 전 (2026년 3월 9일 PM 12:20 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.07917v1

Overview

대형 언어 모델(LLM) 추론은 챗 어시스턴트부터 코드 생성기까지 모든 분야의 핵심 서비스가 되고 있습니다. 하지만 각 요청의 출력 길이가 완료될 때까지 알 수 없고, 작업 부하가 GPU 연산과 메모리 모두에 큰 부담을 주기 때문에 이러한 모델을 효율적으로 서비스하는 것은 어렵습니다. 논문 **“SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity”**는 출력 길이를 예측하고, 요청의 실제 비용을 모델링하며, 불확실성을 고려한 배치 결정을 내리는 스케줄러를 소개합니다—전체 시스템 효율성을 최대 28 % 향상시킵니다.

핵심 기여

경량 출력‑길이 예측기 – 프롬프트 텍스트와 최근 추론 결과를 결합하여 최종 토큰 수의 확률 분포를 추정합니다.
하이브리드 비용 모델 – 연산 사이클과 메모리 압력을 동시에 고려하여 추론 요청의 실제 “서비스 비용”을 정량화합니다.
불확실성 인식 스케줄링 정책 – 예측된 길이 분포를 활용해 메모리 제한을 준수하면서 처리량을 최대화하도록 GPU에 요청을 할당합니다.
포괄적인 평가 – 다양한 GPU 클러스터, 배치 크기 및 요청 혼합을 사용한 실제 테스트베드에서 최신 휴리스틱 대비 평균 **28.7 %**의 효율성 향상을 보여줍니다.

방법론

데이터 기반 길이 예측
- 각 들어오는 요청에 대해 SageSched는 프롬프트(예: 토큰 수, 어휘 패턴)와 동일 모델에 대한 가장 최근 완료된 추론에서 특징을 추출합니다.
- 가벼운 회귀 모델(예: 얕은 신경망)은 확률 분포를 출력하여 가능한 출력 길이들을 하나의 점 추정이 아니라 분포 형태로 제공합니다.
하이브리드 비용 추정
- 스케줄러는 두 가지 요소를 계산합니다:
  - 연산 비용 – 예측된 토큰 수를 기반으로 추정된 FLOP 수.
  - 메모리 비용 – 프롬프트와 출력 길이에 따라 증가하는 GPU 메모리 사용량(모든 중간 활성화를 저장해야 하는 KV‑캐시 때문에).
- 전체 비용은 실제 하드웨어 구성에서의 병목 현상을 반영하도록 가중합으로 결합됩니다.
불확실성 인식 배치
- “가장 여유 있는” GPU에 요청을 할당하는 대신, SageSched는 길이 분포에 대해 예상 한계 효용을 각 GPU에 대해 평가합니다.
- 전체 시스템 지연시간의 예상 증가를 최소화하면서 메모리 사용량을 안전 임계값 이하로 유지하는 GPU를 선택합니다.
- 이 정책은 요청당 O(N) 시간(여기서 N은 GPU 수)으로 실행되어 고처리량 서비스 스택에 적합합니다.

결과 및 발견

지표	기준 (휴리스틱)	SageSched	개선
처리량 (req/s)	1,200	1,540	+28.3 %
평균 지연시간 (ms)	210	165	–21 %
GPU 메모리 활용도	92 % (피크)	78 % (피크)	–15 %
GPU 연산 활용도	84 %	92 %	+9 %

이 향상은 다양한 모델 크기(7B‑30B 파라미터)와 이기종 클러스터(A100, H100) 전반에 걸쳐 유지됩니다.
워크로드에 짧은 생성과 긴 생성이 혼합될 때, SageSched의 불확실성 인식 의사결정은 순진한 스케줄러를 마비시키는 “메모리 부족” 상황을 방지합니다.
Ablation 연구에 따르면 길이 예측기 또는 하이브리드 비용 모델 중 하나를 제거하면 효율성 향상이 약 10 %로 감소하며, 두 구성 요소가 모두 필수임을 확인합니다.

실용적인 시사점

클라우드 AI 제공업체는 GPU당 더 많은 추론 요청을 처리할 수 있어 하드웨어 비용을 절감하거나 최종 사용자에게 더 낮은 가격을 제공할 수 있습니다.
DevOps 팀은 클러스터 규모를 결정하는 확정적인 방법을 얻습니다: 스케줄러의 비용 모델을 용량 계획 도구에 입력하여 과다 프로비저닝을 방지합니다.
애플리케이션 개발자(예: 챗봇 플랫폼)는 스케줄러가 장기 생성에 대한 메모리를 사전에 예약함으로써 지연 시간 급증이 더 부드러워지는 것을 경험합니다.
제한된 GPU 메모리를 가진 엣지 또는 온프레미스 배포는 메모리 인식 기능 덕분에 특히 이점을 얻으며, 동일한 하드웨어에서 더 큰 모델을 실행할 수 있습니다.

SageSched를 기존 추론 서빙 스택(예: TensorRT‑LLM, vLLM, 또는 OpenAI의 Triton)에 통합하려면 주로 경량 예측기를 연결하고 요청 배치 로직을 교체하면 되며, 큰 구조적 변경은 필요하지 않습니다.

제한 사항 및 향후 작업

현재 예측기는 단일 모델의 과거 요청 로그를 기반으로 학습되었습니다; 모델 간 일반화를 위해서는 추가적인 파인튜닝이 필요할 수 있습니다.
SageSched는 정적 GPU 풀을 전제로 합니다; 동적 스케일링(노드 추가/제거)은 아직 탐구되지 않았습니다.
비용 모델은 컴퓨팅과 메모리를 단순히 가산적으로 취급합니다; 대역폭 경쟁과 같은 더 복잡한 상호작용을 모델링하면 보다 정밀한 스케줄링이 가능할 것입니다.
향후 연구 방향으로는 멀티‑테넌트 환경으로 프레임워크를 확장하고, 에너지‑인식 스케줄링을 도입하며, 워크로드 변화에 실시간으로 적응하는 강화 학습 정책을 탐색하는 것이 포함됩니다.

저자

Zhenghao Gan
Yichen Bao
Yifei Liu
Chen Chen
Quan Chen
Minyi Guo

논문 정보

arXiv ID: 2603.07917v1
카테고리: cs.DC
발행일: 2026년 3월 9일
PDF: PDF 다운로드

[Paper] SageSched: 효율적인 LLM 스케줄링, 수요 불확실성과 하이브리드성에 대응

Overview

핵심 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 속도의 관료주의: Memory Consistency Models와 Multi-Agent Authorization Revocation 사이의 구조적 동등성

[Paper] 유한 격자 상의 이질적 랜덤 필드에 대한 Rate-Distortion 한계

[Paper] Randomized Distributed Function Computation (RDFC): 프라이버시를 위한 초고효율 의미 통신 응용

[Paper] SafarDB: FPGA 가속 분산 트랜잭션 via 복제 데이터 타입