[Paper] MUSE: 멀티테넌트 모델 서빙과 원활한 모델 업데이트

발행: 3일 전 (2026년 2월 12일 오후 06:54 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.11776v1

개요

MUSE (Multi‑Tenant Model Serving)은 “Score‑as‑a‑Service” 플랫폼에서 숨겨진 고통 포인트를 해결합니다: 사기 탐지 모델이 재학습될 때마다 점수 분포가 변동하여 각 클라이언트가 결정 임계값을 수동으로 다시 조정해야 합니다. 저자들은 모델 점수를 클라이언트‑특정 임계값과 분리하는 서빙 프레임워크를 제시하여, 모델 업데이트가 수주가 아닌 몇 분 안에 롤아웃될 수 있게 하면서도 동일 인프라에서 수백 명의 테넌트를 지원합니다.

주요 기여

두‑단계 점수 변환은 새로 학습된 모델의 원시 점수를 안정적인 기준 분포에 매핑하여 업데이트 시에도 클라이언트 임계값이 유효하도록 유지합니다.
동적 의도‑기반 라우팅은 여러 테넌트가 동일한 기본 모델 인스턴스를 공유하도록 하여 격리를 손상시키지 않으면서 GPU/CPU 활용도를 극대화합니다.
프로덕션‑급 배포는 Feedzai에서 초당 1 k 건 이상의 이벤트와 연간 55 B 건 이상의 이벤트를 수십 개 테넌트에 걸쳐 처리하며, 서브‑밀리초 지연 시간과 고‑가용성 보장을 제공합니다.
운영 영향 연구는 모델‑배포 리드 타임을 몇 주에서 몇 분으로 단축하고, 사기 관련 손실을 수백만 달러 규모로 감소시켰음을 보여줍니다.

Methodology

Reference Distribution Definition – 팀은 모든 클라이언트가 기준으로 사용하기로 동의하는 “표준” 점수 분포(예: 보정된 로지스틱 출력)를 선택합니다.
Two‑Level Mapping
- Level 1: 새로 학습된 모델이 원시 점수를 생성합니다.
- Level 2: 가벼운 모델별 변환(보통 단조적인 구간별 선형 함수)을 적용해 이 원시 점수를 기준 분포에 맞게 재조정합니다. 변환이 단조적이기 때문에 예측 순서는 유지되어 모델 성능이 보존됩니다.
Intent‑Based Routing Layer – 들어오는 이벤트는 테넌트 식별자와 선택적인 “intent” 메타데이터(예: 사기 유형)를 포함합니다. 라우터는 해당 테넌트의 저장된 임계값을 이미 변환된 점수에 적용하여 적절한 공유 모델 인스턴스로 요청을 전달합니다.
Continuous Deployment Pipeline – 새로운 모델이 자동으로 등록되고, 변환 파라미터가 작은 검증 세트에서 재계산되며, 업데이트된 모델이 다운타임 없이 핫스와핑됩니다.

이 접근 방식은 클라이언트 측 코드 변경을 필요로 하지 않으며, 임계값은 절대 이동하지 않는 기준 분포에 맞게 보정된 상태를 유지합니다.

결과 및 발견

지표	MUSE 적용 전	MUSE 적용 후
Model update latency	~2 주 (수동 재보정)	~5 분 (자동 핫‑스왑)
Avg. per‑event latency	3.2 ms	2.8 ms
Throughput	≈ 800 eps	≈ 1,200 eps
Fraud loss reduction (estimated)	—	$3–5 M/yr
Ops effort for threshold updates	≈ 200 시간/yr	≈ 10 시간/yr

안정적인 기준 분포는 각 모델 재학습 후 테넌트별 임계값 재조정이 필요 없도록 했으며, 공유‑모델 아키텍처는 리소스 사용량을 낮게 유지했습니다. 시스템은 전체 1년 동안 프로덕션 트래픽에서 >99.99 % 가용성을 유지했습니다.

Practical Implications

Faster Model Innovation – 데이터 과학 팀은 클라이언트‑사이드 업데이트가 연쇄적으로 발생하는 것을 걱정하지 않고 매일 반복 작업을 할 수 있습니다.
Lower Ops Cost – 임계값‑재보정 단계를 자동화함으로써 수동 QA와 지원 티켓을 줄일 수 있습니다.
Improved Fraud Resilience – 업데이트된 모델을 빠르게 배포하면 플랫폼이 새로운 공격 패턴에 거의 실시간에 가깝게 대응할 수 있어 재정 손실을 직접 감소시킵니다.
Scalable SaaS Architecture – 의도‑기반 라우팅 및 점수‑변환 패턴은 하위 비즈니스 로직이 보정된 점수에 의존하는 모든 멀티‑테넌트 ML 서비스(예: 신용 점수, 추천 엔진)에서 재사용할 수 있습니다.
Simplified Client Integration – 클라이언트는 기존 임계값 로직을 유지하고 API 엔드포인트를 MUSE 게이트웨이로 지정하기만 하면 되므로 통합 마찰이 감소합니다.

제한 사항 및 향후 작업

단조 매핑 가정 – 현재 변환은 단조 함수에만 제한됩니다; 비단조 보정(예: 다중 모달 점수 분포 처리)은 지원되지 않습니다.
참조 분포 선택 – 모든 테넌트에 잘 작동하는 보편적인 참조 분포를 선택하는 것은 어려울 수 있으며, 특히 테넌트마다 위험 선호도가 크게 다를 때 더욱 그렇습니다.
모델 다양성 – MUSE는 하나의 모델이 다수의 테넌트를 지원할 수 있다고 가정합니다; 매우 특화된 모델은 여전히 별도의 인스턴스가 필요할 수 있어 공유 이점을 감소시킵니다.
향후 방향 – 저자들은 적응형 테넌트‑특화 변환 레이어(예: 작은 신경망)를 탐색하고, 프레임워크를 이진 분류를 넘어 다중 클래스 또는 회귀 작업으로 확장할 것을 제안합니다.

핵심 요점: MUSE는 영리한 점수 정규화 레이어와 스마트 라우팅을 통해 다중 테넌트 ML 플랫폼이 주요 운영 병목을 제거하고, 더 빠르고 저렴하며 더 신뢰할 수 있는 모델 업데이트를 제공함을 보여줍니다—이는 SaaS 중심 ML 팀이라면 모두 고려해야 할 접근 방식입니다.

저자

Cláudio Correia
Alberto E. A. Ferreira
Lucas Martins
Miguel P. Bento
Sofia Guerreiro
Ricardo Ribeiro Pereira
Ana Sofia Gomes
Jacopo Bono
Hugo Ferreira
Pedro Bizarro

논문 정보

arXiv ID: 2602.11776v1
분류: cs.LG, cs.DC
출판일: 2026년 2월 12일
PDF: PDF 다운로드

[Paper] MUSE: 멀티테넌트 모델 서빙과 원활한 모델 업데이트

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] 시계열 데이터에 대한 Flow-Guided Neural Operator 기반 Self‑Supervised Learning