[논문] 온라인 플랫폼의 데이터 기반 동적 상품 구색: 양측면 학습

발행: 3일 전 (2026년 6월 10일 AM 02:15 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.11118v1

개요

우리는 불완전한 정보와 이질적인 고객을 가진 양면 서비스 플랫폼에서 동적 어소시엄 문제를 이산 시간 설정으로 연구한다. 각 기간마다 서비스가 필요한 고객이 도착하고, 플랫폼은 표시할 판매자들의 어소시엄을 선택한다. 고객은 다항 로짓 선택 모델에 따라 어소시엄 내에서 최대 하나의 판매자에게 거래를 제안한다. 일정 기간이 지나면 판매자들은 받은 제안을 검토하고, 또 다른 다항 로짓 선택 모델에 따라 최대 하나의 고객을 선택한다. 이후 이 사이클이 반복된다. 핵심 과제는 플랫폼이 고객과 판매자 모두의 선택 모델 파라미터를 사전에 알지 못한다는 점이다. 우리 지식으로는 양측의 선택 파라미터가 모두 알려지지 않은 상태에서 동적 어소시엄 문제를 다룬 최초의 연구이다. 우리는 이러한 파라미터를 학습하면서 플랫폼의 목표를 시간에 따라 최적화하는 데이터 기반 알고리즘을 개발한다. 성능 평가는 모든 파라미터와 고객 도착을 사전에 알고 있는 전지전능한 벤치마크에 비해 발생하는 수익 손실을 측정하는 regret를 사용한다. 우리는 알고리즘의 최악 경우 regret가 시간에 대해 다항 로그 형태로 성장함을 보이고, 일치하는 하한을 도출하여 속도 최적성을 확립한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.LG
math.OC
math.PR
stat.AP
stat.ML

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 시사점

본 연구는 cs.LG 분야의 발전에 기여한다.

저자

Rahul Roy
Nur Sunar
Jayashankar M. Swaminathan

논문 정보

arXiv ID: 2606.11118v1
Categories: cs.LG, math.OC, math.PR, stat.AP, stat.ML
Published: 2026년 6월 9일
PDF: PDF 다운로드

[논문] 온라인 플랫폼의 데이터 기반 동적 상품 구색: 양측면 학습

개요

주요 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원