[논문] 컨텍스트 LLM 캐스케이딩을 위한 온라인 판도라의 상자

발행: 5일 전 (2026년 6월 6일 AM 12:29 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.07392v1

개요

대형 언어 모델(LLM) 연쇄에 영감을 받아, 우리는 LLM API를 적응적으로 질의하고 선택하기 위한 온라인 컨텍스트 판도라 상자 모델을 제안한다. 각 기간마다 의사결정자는 요청 컨텍스트를 관찰하고 두 단계 의사결정 문제에 직면한다. 질의 단계에서는 의사결정자가 API를 순차적으로 질의하며, 각 질의는 생성된 출력물을 공개하고 의사결정자는 (출력에 의존하는) 비용을 부담한다. 선택 단계에서는 의사결정자가 생성된 출력물 중 하나를 선택해 배포하고, 배포된 출력물의 하위 보상만을 관찰한다. 이와 같은 출력 매개 피드백 구조는 상자를 열면 바로 보상이 드러나는 고전적인 온라인 컨텍스트 판도라 상자 모델과 다르다. 각 API의 전체 조건부 출력 및 비용 분포를 추정하는 대신, 우리는 예약 지수(reservation index)를 직접 모델링하고 질의 단계에 대한 학습 접근법을 개발한다. 구체적으로, 고전적인 Weitzman 정책에 의해 유도되는 컨텍스트 예약 지수 함수에 파라메트릭 구조를 부여한다. 우리의 정책은 이러한 예약 지수에 대한 일반화 모멘트 방법(GMM) 추정과, 두 지수 및 공유되는 출력 수준 보상 평가자에 대한 UCB 스타일 신뢰 구간을 결합한다. 정규성 조건 하에서, 제안된 정책은 $T$ 기간의 시간 horizon에 대해 차원에 의존하는 $\widetilde O(\sqrt T)$ 누적 레그레드를 달성함을 증명한다.

주요 기여

이 논문은 다음 분야의 연구를 다룬다:

cs.AI
cs.LG
econ.EM
stat.ML

방법론

자세한 방법론은 전체 논문을 참고하시기 바란다.

실용적 함의

본 연구는 cs.AI 분야의 발전에 기여한다.

저자

Alexandre Belloni
Yan Chen
Yehua Wei

논문 정보

arXiv ID: 2606.07392v1
분류: cs.AI, cs.LG, econ.EM, stat.ML
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] 컨텍스트 LLM 캐스케이딩을 위한 온라인 판도라의 상자

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법