[Paper] CALM: 소형 언어 모델 기반 시스템에서 QoS-Aware 라우팅을 위한 자체 적응 오케스트레이션 접근법

발행: (2026년 2월 4일 오전 12:20 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.03632v1

Overview

이 논문은 CALM을 소개한다. CALM은 자체 적응형 오케스트레이션 레이어로, 특화된 모델 군에서 가장 적합한 소형 언어 모델(SLM)을 동적으로 선택하고 요청을 라우팅한다. 워크로드 특성 및 QoS 메트릭(지연 시간, 에너지, 응답 품질)을 지속적으로 모니터링함으로써, CALM은 추론 지연 시간을 약 40 % 줄이고 에너지 사용량을 절반으로 감소시키면서도 단일 모델 배포와 동등한 작업 성능을 유지한다.

핵심 기여

  • QoS‑aware multi‑model orchestration – 요청당 어떤 SLM이 쿼리를 처리할지 결정하는 MAPE‑K (Monitor‑Analyze‑Plan‑Execute‑Knowledge) 루프를 도입합니다.
  • Dynamic caching & scheduling – 가벼운 스케줄러가 가장 유망한 SLM을 메모리에 상주시키며, 콜드 스타트 오버헤드를 감소시킵니다.
  • Empirical validation – 여러 도메인‑특화 벤치마크에 대한 실험에서 최고 단일‑SLM 기준 대비 최대 40 % 지연 시간 감소와 50 % 에너지 절감 효과를 보였습니다.
  • Open‑source reference implementation – 저자들은 기존 추론 파이프라인(예: Hugging Face Transformers, FastAPI)에 연결할 수 있는 프로토타입을 공개했습니다.

방법론

  1. 모니터링 – 들어오는 모든 사용자 쿼리가 런타임 신호(토큰 길이, 요청 속도, 하드웨어 활용도)와 함께 기록됩니다.
  2. 분석 – 경량 예측기가 현재 컨텍스트를 고려하여 플릿 내 각 SLM의 예상 지연 시간, 에너지 비용 및 품질을 추정합니다.
  3. 계획 – 시스템은 가중된 QoS 점수(운영자가 구성 가능)를 기준으로 SLM을 순위 매깁니다.
  4. 실행 – 최상위 순위 모델이 요청을 받으며, 모델이 아직 로드되지 않은 경우 CALM은 스케줄러의 캐시 정책에 따라 사전 로드를 트리거합니다.
  5. 지식 베이스 – 과거 성능 데이터가 지속적으로 예측기를 업데이트하여 루프가 모델 드리프트 또는 하드웨어 변화에 적응할 수 있게 합니다.

오케스트레이션 로직은 얇은 미들웨어 레이어로 구현되어 모든 추론 서버 앞에 배치될 수 있으며, 표준 REST/gRPC 훅만 필요합니다.

결과 및 발견

지표단일‑SLM 기준선CALM (다중‑SLM)
엔드‑투‑엔드 지연시간 (ms)210124 (≈ 40 % 감소)
쿼리당 에너지 (J)1.80.9 (≈ 50 % 감소)
작업 정확도 (BLEU/F1)0.840.83 (통계적으로 유의미한 감소 없음)
캐시 적중률N/A68 % (스마트 사전 로딩 덕분)

핵심 요약

  • 지연 시간 개선은 짧고 지연에 민감한 쿼리를 초경량 SLM에 라우팅하고, 복잡하고 높은 품질이 요구되는 쿼리는 더 크고 능력 있는 모델에 위임함으로써 주로 발생합니다.
  • 에너지 절감은 일부 모델만 상주시키고 불필요한 무거운 추론을 피함으로써 달성됩니다.
  • 품질 유지는 작업 요구에 따라 모델의 도메인 전문성을 절대 포기하지 않는 QoS‑인식 스코어링을 통해 이루어집니다.

실용적인 시사점

  • Edge 및 온프레미스 배포 – 기업은 단일 GPU/CPU 장비에서 작은(예: 80M‑파라미터) 및 중간 규모(예: 300M‑파라미터) 모델을 혼합하여 실행할 수 있어, 클라우드‑API 비용이나 데이터 프라이버시 우려 없이 빠른 응답을 제공합니다.
  • 비용 효율적인 확장 – 클라우드 제공자는 모델 인스턴스당 요금을 부과할 수 있으며, CALM이 필요한 모델만 워밍업 상태로 유지함으로써 VM/인스턴스 사용량을 줄여 운영 비용을 낮춥니다.
  • 개발자 편의성 – 미들웨어가 모델 선택 로직을 추상화하므로, 개발자는 메타데이터 파일로 새로운 SLM을 등록하고 CALM이 라우팅을 처리하도록 하면 됩니다.
  • 적응형 컴플라이언스 – 특정 데이터가 온프레미스에 머물러야 하는 규제 환경에서, CALM은 민감한 쿼리를 로컬에 호스팅된 SLM으로 라우팅하고 비민감한 쿼리는 비용이 저렴한 클라우드 API로 전송하도록 정책을 적용할 수 있습니다.

제한 사항 및 향후 작업

  • 모델 이질성 오버헤드 – 현재 프로토타입은 모든 SLM이 동일한 토크나이저와 입력 형식을 공유한다고 가정합니다; 인코더‑디코더와 디코더‑전용 같은 진정한 이질적 아키텍처로 확장하려면 추가적인 구현이 필요합니다.
  • 콜드 스타트 지연 – 캐싱으로 어느 정도 완화되지만, 거의 사용되지 않는 모델에 대한 첫 요청은 여전히 눈에 띄는 로드 시간을 초래합니다; 향후 작업에서는 워크로드 예측을 기반으로 한 예측 워밍업을 탐구할 수 있습니다.
  • QoS 메트릭 가중치 – 스코어링 함수는 수동으로 조정됩니다; SLA나 비즈니스 목표로부터 최적 가중치를 자동으로 학습하는 것은 아직 해결되지 않은 과제입니다.
  • 보안 및 격리 – 동일 프로세스에서 여러 모델을 실행하면 격리 문제가 발생할 수 있습니다; 컨테이너 수준 샌드박싱이 가능한 방향입니다.

전반적으로 CALM은 스마트하고 자체 적응형 오케스트레이션 레이어가 사용자가 기대하는 성능을 희생하지 않으면서 소형 언어 모델의 효율성을 끌어낼 수 있음을 보여줍니다—이 통찰은 대규모 AI 서비스 배포 방식을 재구성할 수 있습니다.

저자

  • Hemang Jain
  • Divyansh Pandey
  • Karthik Vaidhyanathan

논문 정보

  • arXiv ID: 2602.03632v1
  • 분류: cs.SE
  • 출판일: 2026년 2월 3일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »