[논문] 컨텍스트 LLM 캐스케이딩을 위한 온라인 판도라의 상자
개요
대형 언어 모델(LLM) 연쇄에 영감을 받아, 우리는 LLM API를 적응적으로 질의하고 선택하기 위한 온라인 컨텍스트 판도라 상자 모델을 제안한다. 각 기간마다 의사결정자는 요청 컨텍스트를 관찰하고 두 단계 의사결정 문제에 직면한다. 질의 단계에서는 의사결정자가 API를 순차적으로 질의하며, 각 질의는 생성된 출력물을 공개하고 의사결정자는 (출력에 의존하는) 비용을 부담한다. 선택 단계에서는 의사결정자가 생성된 출력물 중 하나를 선택해 배포하고, 배포된 출력물의 하위 보상만을 관찰한다. 이와 같은 출력 매개 피드백 구조는 상자를 열면 바로 보상이 드러나는 고전적인 온라인 컨텍스트 판도라 상자 모델과 다르다. 각 API의 전체 조건부 출력 및 비용 분포를 추정하는 대신, 우리는 예약 지수(reservation index)를 직접 모델링하고 질의 단계에 대한 학습 접근법을 개발한다. 구체적으로, 고전적인 Weitzman 정책에 의해 유도되는 컨텍스트 예약 지수 함수에 파라메트릭 구조를 부여한다. 우리의 정책은 이러한 예약 지수에 대한 일반화 모멘트 방법(GMM) 추정과, 두 지수 및 공유되는 출력 수준 보상 평가자에 대한 UCB 스타일 신뢰 구간을 결합한다. 정규성 조건 하에서, 제안된 정책은 $T$ 기간의 시간 horizon에 대해 차원에 의존하는 $\widetilde O(\sqrt T)$ 누적 레그레드를 달성함을 증명한다.
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.AI
- cs.LG
- econ.EM
- stat.ML
방법론
자세한 방법론은 전체 논문을 참고하시기 바란다.
실용적 함의
본 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Alexandre Belloni
- Yan Chen
- Yehua Wei
논문 정보
- arXiv ID: 2606.07392v1
- 분류: cs.AI, cs.LG, econ.EM, stat.ML
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드