[논문] 효율적 실험을 위한 밴딧: 대조군·선호·컨텍스트 변동에 적응

발행: (2026년 6월 9일 AM 02:53 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09802v1

개요

우리는 선형 컨텍스트 확률적 다중 팔 밴딧의 변형을 고려한다. 여기서 학습자는 개인화된 선호 벡터를 가진 사용자 그룹에게 추천을 제공해야 하며, 컨텍스트 분포가 시간에 따라 변동하는 상황을 다룬다. 실무자 친화적인 가정 하에, 이 설정을 평균은 정상(stationary)하지만 이분산(heteroskedastic) 및 비정상(non‑stationary) 잡음이 존재하는 선형 밴딧 문제로 축소한다. 또한 학습자가 각 의사결정 단계에서 평균 보상이 기준 전략 $\boldsymbolπ_0$의 평균 보상을 초과하도록 보장해야 하는 경우를 연구한다. 우리는 MED 전략의 선형 버전에서 영감을 얻은 알고리즘 Dri-MED를 도입하고, 비정상 이분산 잡음을 처리하도록 신중히 적응시켰다. 우리는 인스턴스 의존적 후회(regret)가 $\tilde{\mathcal O}\left(\fracκ{\tildeΔ}d^2(\log(T)\right)$ 로 스케일링됨을 보이며, 여기서 $\tildeΔ$는 정책 $π_0$에 대한 제약 인식 하위 최적성 갭이고, 분산 인식 곱셈 항 $κ$는 이분산 회귀를 이용해 정교히 다룬다. 또한 Dri-MED는 $\tilde{\mathcal{O}}(d)$ 수준의 기대 제약 위반을 만족함을 보여준다. 우리의 수치 실험 결과는 Dri-MED가 드리프트와 선호 구조를 무시하는 보수적인 베이스라인보다 현저히 우수함을 시사한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.LG
  • cs.AI
  • stat.ML

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여한다.

저자

  • Udvas Das
  • Waris Radji
  • Debabrota Basu
  • Odalric-Ambrym Maillard

논문 정보

  • arXiv ID: 2606.09802v1
  • Categories: cs.LG, cs.AI, stat.ML
  • Published: June 8, 2026
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »