[Paper] CALM: 소형 언어 모델 기반 시스템에서 QoS-Aware 라우팅을 위한 자체 적응 오케스트레이션 접근법

발행: 5일 전 (2026년 2월 4일 오전 12:20 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.03632v1

Overview

이 논문은 CALM을 소개한다. CALM은 자체 적응형 오케스트레이션 레이어로, 특화된 모델 군에서 가장 적합한 소형 언어 모델(SLM)을 동적으로 선택하고 요청을 라우팅한다. 워크로드 특성 및 QoS 메트릭(지연 시간, 에너지, 응답 품질)을 지속적으로 모니터링함으로써, CALM은 추론 지연 시간을 약 40 % 줄이고 에너지 사용량을 절반으로 감소시키면서도 단일 모델 배포와 동등한 작업 성능을 유지한다.

핵심 기여

QoS‑aware multi‑model orchestration – 요청당 어떤 SLM이 쿼리를 처리할지 결정하는 MAPE‑K (Monitor‑Analyze‑Plan‑Execute‑Knowledge) 루프를 도입합니다.
Dynamic caching & scheduling – 가벼운 스케줄러가 가장 유망한 SLM을 메모리에 상주시키며, 콜드 스타트 오버헤드를 감소시킵니다.
Empirical validation – 여러 도메인‑특화 벤치마크에 대한 실험에서 최고 단일‑SLM 기준 대비 최대 40 % 지연 시간 감소와 50 % 에너지 절감 효과를 보였습니다.
Open‑source reference implementation – 저자들은 기존 추론 파이프라인(예: Hugging Face Transformers, FastAPI)에 연결할 수 있는 프로토타입을 공개했습니다.

방법론

모니터링 – 들어오는 모든 사용자 쿼리가 런타임 신호(토큰 길이, 요청 속도, 하드웨어 활용도)와 함께 기록됩니다.
분석 – 경량 예측기가 현재 컨텍스트를 고려하여 플릿 내 각 SLM의 예상 지연 시간, 에너지 비용 및 품질을 추정합니다.
계획 – 시스템은 가중된 QoS 점수(운영자가 구성 가능)를 기준으로 SLM을 순위 매깁니다.
실행 – 최상위 순위 모델이 요청을 받으며, 모델이 아직 로드되지 않은 경우 CALM은 스케줄러의 캐시 정책에 따라 사전 로드를 트리거합니다.
지식 베이스 – 과거 성능 데이터가 지속적으로 예측기를 업데이트하여 루프가 모델 드리프트 또는 하드웨어 변화에 적응할 수 있게 합니다.

오케스트레이션 로직은 얇은 미들웨어 레이어로 구현되어 모든 추론 서버 앞에 배치될 수 있으며, 표준 REST/gRPC 훅만 필요합니다.

결과 및 발견

지표	단일‑SLM 기준선	CALM (다중‑SLM)
엔드‑투‑엔드 지연시간 (ms)	210	124 (≈ 40 % 감소)
쿼리당 에너지 (J)	1.8	0.9 (≈ 50 % 감소)
작업 정확도 (BLEU/F1)	0.84	0.83 (통계적으로 유의미한 감소 없음)
캐시 적중률	N/A	68 % (스마트 사전 로딩 덕분)

핵심 요약

지연 시간 개선은 짧고 지연에 민감한 쿼리를 초경량 SLM에 라우팅하고, 복잡하고 높은 품질이 요구되는 쿼리는 더 크고 능력 있는 모델에 위임함으로써 주로 발생합니다.
에너지 절감은 일부 모델만 상주시키고 불필요한 무거운 추론을 피함으로써 달성됩니다.
품질 유지는 작업 요구에 따라 모델의 도메인 전문성을 절대 포기하지 않는 QoS‑인식 스코어링을 통해 이루어집니다.

실용적인 시사점

Edge 및 온프레미스 배포 – 기업은 단일 GPU/CPU 장비에서 작은(예: 80M‑파라미터) 및 중간 규모(예: 300M‑파라미터) 모델을 혼합하여 실행할 수 있어, 클라우드‑API 비용이나 데이터 프라이버시 우려 없이 빠른 응답을 제공합니다.
비용 효율적인 확장 – 클라우드 제공자는 모델 인스턴스당 요금을 부과할 수 있으며, CALM이 필요한 모델만 워밍업 상태로 유지함으로써 VM/인스턴스 사용량을 줄여 운영 비용을 낮춥니다.
개발자 편의성 – 미들웨어가 모델 선택 로직을 추상화하므로, 개발자는 메타데이터 파일로 새로운 SLM을 등록하고 CALM이 라우팅을 처리하도록 하면 됩니다.
적응형 컴플라이언스 – 특정 데이터가 온프레미스에 머물러야 하는 규제 환경에서, CALM은 민감한 쿼리를 로컬에 호스팅된 SLM으로 라우팅하고 비민감한 쿼리는 비용이 저렴한 클라우드 API로 전송하도록 정책을 적용할 수 있습니다.

제한 사항 및 향후 작업

모델 이질성 오버헤드 – 현재 프로토타입은 모든 SLM이 동일한 토크나이저와 입력 형식을 공유한다고 가정합니다; 인코더‑디코더와 디코더‑전용 같은 진정한 이질적 아키텍처로 확장하려면 추가적인 구현이 필요합니다.
콜드 스타트 지연 – 캐싱으로 어느 정도 완화되지만, 거의 사용되지 않는 모델에 대한 첫 요청은 여전히 눈에 띄는 로드 시간을 초래합니다; 향후 작업에서는 워크로드 예측을 기반으로 한 예측 워밍업을 탐구할 수 있습니다.
QoS 메트릭 가중치 – 스코어링 함수는 수동으로 조정됩니다; SLA나 비즈니스 목표로부터 최적 가중치를 자동으로 학습하는 것은 아직 해결되지 않은 과제입니다.
보안 및 격리 – 동일 프로세스에서 여러 모델을 실행하면 격리 문제가 발생할 수 있습니다; 컨테이너 수준 샌드박싱이 가능한 방향입니다.

전반적으로 CALM은 스마트하고 자체 적응형 오케스트레이션 레이어가 사용자가 기대하는 성능을 희생하지 않으면서 소형 언어 모델의 효율성을 끌어낼 수 있음을 보여줍니다—이 통찰은 대규모 AI 서비스 배포 방식을 재구성할 수 있습니다.

저자

Hemang Jain
Divyansh Pandey
Karthik Vaidhyanathan

논문 정보

arXiv ID: 2602.03632v1
분류: cs.SE
출판일: 2026년 2월 3일
PDF: PDF 다운로드

[Paper] CALM: 소형 언어 모델 기반 시스템에서 QoS-Aware 라우팅을 위한 자체 적응 오케스트레이션 접근법

Overview

핵심 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] GitHub Security Advisories 검토 파이프라인 특성화 및 모델링

[Paper] Elo가 거짓말을 할 때: 대규모 언어 모델의 Codeforces 기반 평가에 숨겨진 편향

[Paper] 양자 안전 소프트웨어 엔지니어링을 향하여: 포스트-양자 암호학 마이그레이션을 위한 비전

[Paper] 비침입식 부하 모니터링을 위한 베이지안 최적화 기반 AutoML 프레임워크