[논문] 효율적 실험을 위한 밴딧: 대조군·선호·컨텍스트 변동에 적응
개요
우리는 선형 컨텍스트 확률적 다중 팔 밴딧의 변형을 고려한다. 여기서 학습자는 개인화된 선호 벡터를 가진 사용자 그룹에게 추천을 제공해야 하며, 컨텍스트 분포가 시간에 따라 변동하는 상황을 다룬다. 실무자 친화적인 가정 하에, 이 설정을 평균은 정상(stationary)하지만 이분산(heteroskedastic) 및 비정상(non‑stationary) 잡음이 존재하는 선형 밴딧 문제로 축소한다. 또한 학습자가 각 의사결정 단계에서 평균 보상이 기준 전략 $\boldsymbolπ_0$의 평균 보상을 초과하도록 보장해야 하는 경우를 연구한다. 우리는 MED 전략의 선형 버전에서 영감을 얻은 알고리즘 Dri-MED를 도입하고, 비정상 이분산 잡음을 처리하도록 신중히 적응시켰다. 우리는 인스턴스 의존적 후회(regret)가 $\tilde{\mathcal O}\left(\fracκ{\tildeΔ}d^2(\log(T)\right)$ 로 스케일링됨을 보이며, 여기서 $\tildeΔ$는 정책 $π_0$에 대한 제약 인식 하위 최적성 갭이고, 분산 인식 곱셈 항 $κ$는 이분산 회귀를 이용해 정교히 다룬다. 또한 Dri-MED는 $\tilde{\mathcal{O}}(d)$ 수준의 기대 제약 위반을 만족함을 보여준다. 우리의 수치 실험 결과는 Dri-MED가 드리프트와 선호 구조를 무시하는 보수적인 베이스라인보다 현저히 우수함을 시사한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.LG
- cs.AI
- stat.ML
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여한다.
저자
- Udvas Das
- Waris Radji
- Debabrota Basu
- Odalric-Ambrym Maillard
논문 정보
- arXiv ID: 2606.09802v1
- Categories: cs.LG, cs.AI, stat.ML
- Published: June 8, 2026
- PDF: PDF 다운로드