[Paper] 보상 기반 온라인 LLM 라우팅 via NeuralUCB

발행: 1개월 전 (2026년 4월 1일 오전 02:35 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.30035v1

개요

이 논문은 주어진 요청에 대해 가장 적합한 대형 언어 모델(LLM)을 자동으로 선택하면서 추론 비용을 낮게 유지하는 방법을 탐구합니다. 원래 컨텍스트 기반 의사결정을 위해 설계된 NeuralUCB 밴딧 알고리즘을 적용함으로써, 저자들은 온라인, 보상‑구동 설정에서 쿼리를 올바른 모델로 라우팅하는 실용적인 방식을 보여줍니다.

Key Contributions

NeuralUCB‑based routing policy: 비용을 고려하고 보상을 최대화하는 라우터를 도입하며, 선택된 모델의 결과만을 이용한 부분 피드백으로 학습합니다.
Comprehensive benchmark: 실제 온라인 트래픽 하에서 LLM 라우팅 전략을 평가하기 위한 표준화된 스위트인 RouterBench에 라우터를 구현합니다.
Empirical superiority: 무작위 선택 및 단순 최소 비용 기준선보다 일관된 향상을 보여주며, 최대 품질 오라클에 비해 추론 비용을 크게 줄이면서 거의 최적에 가까운 효용을 달성합니다.
Analysis of challenges: 유사한 성능을 보이는 모델들을 구분하는 어려움(액션 구별)과 LLM 환경에서 탐색과 활용의 균형을 맞추는 문제를 식별합니다.

Methodology

Problem framing: 각 들어오는 요청은 컨텍스트 (예: 프롬프트 길이, 도메인 키워드) 로 취급됩니다. 시스템은 모델 풀에서 하나의 모델을 선택해야 하며, 이때 비용 (GPU 시간, API 가격)이 발생하고 답변 품질과 비용 효율성을 결합한 보상을 받습니다.
NeuralUCB core:
- 신경망이 요청 컨텍스트를 입력으로 받아 각 모델에 대한 기대 보상을 예측합니다.
- 네트워크의 불확실성에서 파생된 upper confidence bound (UCB) 항을 추가하여 아직 충분히 시도되지 않은 모델을 탐색하도록 장려합니다.
- UCB 점수가 가장 높은 모델이 선택됩니다.
Online learning loop: 선택된 모델이 답변을 반환하면, 시스템은 실제 보상(품질 지표와 비용으로 계산)을 관찰하고 확률적 경사 하강법을 통해 신경망을 업데이트합니다. 선택되지 않은 모델에 대한 보상(전체 피드백)은 필요하지 않으며, 이는 실제 API 제약과 일치합니다.
Evaluation setup: 저자들은 RouterBench에서 연속적인 쿼리 스트림을 시뮬레이션하며 NeuralUCB를 다음과 비교합니다:
- Random routing (기준선).
- Min‑cost routing (품질에 관계없이 가장 저렴한 모델을 선택).
- Max‑quality oracle (항상 최고 품질 모델을 선택하여 상한선을 제공).

결과 및 발견

지표	무작위	최소 비용	NeuralUCB (this work)	Max‑Quality (oracle)
유틸리티 보상 (품질 – λ·비용)	낮음	보통	실용적인 방법 중 가장 높음	상한
추론 비용	높음 (많은 비용이 드는 호출)	최저	max‑quality 대비 약 30‑40 % 낮음, 보상을 오라클의 5 % 이내로 유지하면서	가장 높음
탐색 효율	해당 없음	해당 없음	~10 k 요청 후 안정적인 라우팅 정책으로 빠르게 수렴	해당 없음

핵심 요약: NeuralUCB는 일관되게 단순 베이스라인을 능가하며, 항상 최고의 모델을 선택하는 비용의 일부만으로도 고품질 답변을 제공하는 최적의 지점을 찾아냅니다. 또한 알고리즘은 오프라인 재학습 없이도 요청 분포 변화에 적응합니다.

실용적 함의

비용 효율적인 API 사용: SaaS 제공업체(예: OpenAI, Anthropic)는 NeuralUCB 라우팅을 통합하여 예상 품질 손실이 미미할 경우 자동으로 저렴한 모델로 다운그레이드함으로써 월간 API 비용을 수백만 달러 절감할 수 있습니다.
동적 다중 모델 배포: 이기종 LLM 플릿(온프레미스 GPU 클러스터 + 클라우드 API)을 운영하는 기업은 NeuralUCB가 각 요청을 어디서 실행할지 결정하도록 하여 지연 시간, 하드웨어 활용도 및 금전적 비용을 균형 있게 조절할 수 있습니다.
개발자 도구: 이 접근 방식을 가벼운 SDK로 래핑하여 간단한 route(prompt, context) 호출을 제공함으로써 밴딧 로직을 추상화하면서도 비용 인식 결정을 내릴 수 있습니다.
확장 가능한 A/B 테스트: 선택된 모델의 보상만 필요하기 때문에 NeuralUCB는 모든 요청에 대해 모든 모델을 오프라인으로 평가할 필요 없이 프로덕션에 배포할 수 있습니다.

제한 사항 및 향후 작업

액션 구분: 여러 모델이 거의 동일한 품질을 보일 때 알고리즘이 이를 구분하기 어려워 최적이 아닌 탐색으로 이어질 수 있습니다.
콜드‑스타트 민감도: 초기 성능은 초기 신경 보상 추정기의 품질에 의존합니다; 초기화가 좋지 않으면 수렴이 지연될 수 있습니다.
탐색 오버헤드: 트래픽 패턴이 크게 변동하는 경우 UCB 항이 가끔 비용이 많이 드는 오탐을 유발할 수 있습니다.
향후 방향: 저자들은 더 풍부한 컨텍스트 특징(예: 사용자 의도 임베딩), 하이브리드 지도‑온라인 학습 파이프라인, 그리고 구분 능력을 향상하고 탐색 비용을 줄이기 위한 보다 견고한 불확실성 추정 기법을 제안합니다.

저자

Ming-Hua Tsai
Phat Tran

논문 정보

arXiv ID: 2603.30035v1
카테고리: cs.LG, cs.CL
발행일: 2026년 3월 31일
PDF: PDF 다운로드

[Paper] 보상 기반 온라인 LLM 라우팅 via NeuralUCB

개요

Key Contributions

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Autoregressive Language Models에서 기억의 서명 학습

[Paper] Low Resource Abstractive Summarization을 위한 Reliability Gated Multi-Teacher Distillation

[Paper] PRISM: LLM 기반 고정밀 주제를 위한 시맨틱 클러스터링

[Paper] LLMs의 Valence-Arousal 서브스페이스: 원형 감정 기하학 및 다중 행동 제어