[Paper] Meituan 가맹점 비즈니스 진단: 정책 가이드형 이중 프로세스 사용자 시뮬레이션
발행: (2026년 4월 17일 AM 01:23 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2604.15190v1
Overview
이 논문은 Policy‑Guided Hybrid Simulation (PGHS) 라는 새로운 방식을 소개합니다. 이는 메이투안 플랫폼에서 상인 수준의 정책 변화에 대해 사용자 그룹이 어떻게 반응할지를 모델링하는 방법입니다. 대형 언어 모델(LLM) 추론과 기존 머신러닝 피팅을 결합함으로써, 저자들은 수십 개 상점에 대한 비용이 많이 드는 온라인 A/B 테스트를 대체할 수 있는 훨씬 더 신뢰할 수 있는 “what‑if” 시뮬레이터를 구현했습니다.
핵심 기여
- 이중‑프로세스 시뮬레이션 프레임워크: 추론‑지향 LLM 브랜치와 데이터‑구동 ML 브랜치를 결합하여 사용자 행동의 서로 다른 측면을 각각 처리합니다.
- 정책‑가이드 정렬 레이어: 과거 궤적에서 재사용 가능한 의사결정 정책을 추출하고 이를 활용해 두 브랜치를 동기화함으로써 LLM이 누락된 컨텍스트를 과도하게 합리화하는 것을 방지합니다.
- 융합 메커니즘: 두 브랜치의 예측을 혼합하여 보완적인 수정과 전반적인 높은 충실도를 제공합니다.
- 대규모 배포: Meituan 실시간 시스템에 101개의 상점과 26 k 이상의 사용자‑상점 상호작용 궤적을 포함하도록 배포했습니다.
- 실증적 향상: 전체 그룹 수준 시뮬레이션 오류가 **8.80 %**로 감소했으며, 이는 최선의 추론‑전용 베이스라인 대비 45.8 % 개선, 최선의 피팅‑전용 베이스라인 대비 40.9 % 향상에 해당합니다.
Methodology
- Data collection – 저자들은 각 상점에 대한 순차적 상호작용 로그(예: 검색 → 클릭 → 구매)를 수집하여, 기존 정책 하에서 사용자가 어떻게 행동했는지를 포착하는 “trajectory”를 만든다.
- Policy extraction – 이러한 trajectory에서 decision policies를 학습한다(예: “할인 > 10 %이고 평점 > 4.5이면 구매 확률 ≈ 0.7”). 이 정책들은 가볍고 해석 가능한 규칙으로, 모델 간에 공유될 수 있다.
- Dual‑process architecture
- Reasoning branch (LLM) – 추출된 정책과 현재 컨텍스트(상점 속성, 시간대 등)를 프롬프트로 사용해 대형 언어 모델이 사용자 행동에 대한 합리적인 예측을 생성한다. 데이터가 희박한 부분을 메워준다.
- Fitting branch (ML) – 기존의 감독 학습 모델(예: Gradient‑Boosted Trees)을 원시 trajectory에 직접 학습시켜, LLM이 놓칠 수 있는 통계적 규칙성과 암묵적 습관을 포착한다.
- Alignment via the policy layer – 두 브랜치 모두 동일한 정책 힌트를 받아, 관찰된 의사결정 패턴에 기반을 두도록 하여 LLM의 환상(허위 생성) 경향을 감소시킨다.
- Fusion – 두 예측을 (학습된 신뢰도 점수를 이용한 가중 평균) 결합해 가상의 상점 정책 하에서 사용자 행동에 대한 최종 그룹 수준 추정치를 만든다.
전체 파이프라인은 오프라인으로 실행되어, 실제 사용자를 실험적 변화에 노출시키지 않고도 빠른 반사실 분석을 가능하게 한다.
결과 및 발견
| Metric | PGHS | Best Reasoning‑Only | Best Fitting‑Only |
|---|---|---|---|
| Group simulation error (↓) | 8.80 % | 16.30 % | 14.85 % |
| Relative improvement | — | 45.8 % reduction | 40.9 % reduction |
- 오류 감소는 다양한 규모의 상인 및 다양한 정책 레버(할인율, 추천 슬롯 등) 전반에 걸쳐 일관됩니다.
- 소거 연구에서는 정책‑가이드 정렬을 제거하면 LLM 오류가 약 12 % 증가함을 보여, 그 안정화 역할을 확인합니다.
- 융합 이점: 하나의 브랜치만 사용할 경우 오류가 12 % 이상이며, 결합된 출력이 항상 각 구성 요소 단독보다 우수합니다.
Practical Implications
- Cost‑effective experimentation – 기업은 샌드박스 환경에서 수십 개의 상인 수준 조정을 평가할 수 있어 비용이 많이 들고 시간이 오래 걸리는 A/B 테스트를 줄일 수 있습니다.
- Faster product cycles – 제품 관리자는 정책 제안에 대한 거의 실시간 피드백을 받아 가격, 프로모션 또는 UI 변경에 대한 빠른 반복이 가능합니다.
- Risk mitigation – 롤아웃 전에 최악의 시나리오를 시뮬레이션함으로써 잘못 조정된 인센티브로 인한 매출 감소나 사용자 이탈을 방지할 수 있습니다.
- Transferability – 정책 기반 이중 프로세스 설계는 플랫폼에 구애받지 않으며, 그룹 수준 사용자 시뮬레이션이 가치 있는 다른 마켓플레이스(전자상거래, 라이드 헤일링, 스트리밍 등)에도 적용할 수 있습니다.
- Developer‑friendly tooling – 저자들은 정책 추출 및 융합 로직을 모듈형 컴포넌트로 공개하여 기존 데이터 파이프라인에 쉽게 통합할 수 있도록 했습니다.
제한 사항 및 향후 연구
- 맥락적 사각지대 – 정책 레이어가 과도한 합리화를 억제하지만, LLM은 여전히 프롬프트 품질에 의존한다; 드물거나 새로운 맥락은 잘못 예측될 수 있다.
- 정책 마이닝의 확장성 – 매우 크거나 이질적인 데이터셋에서 해석 가능한 정책을 추출하는 것이 계산 비용이 많이 들 수 있다; 논문에서는 근사 규칙 마이닝을 가능한 해결책으로 제시한다.
- 평가 범위 – 실험은 그룹 수준 메트릭에 초점을 맞추었으며, 개인 사용자 맞춤화 효과는 아직 탐구되지 않았다.
- 향후 방향 – PGHS를 강화학습 기반 정책 업데이트와 결합하고, 교차 도메인 데이터셋에서 테스트하며, 융합을 위한 신뢰도 가중 학습을 자동화하는 것이 다음 단계로 강조된다.
저자
- Ziyang Chen
- Renbing Chen
- Daowei Li
- Jinzhi Liao
- Jiashen Sun
- Ke Zeng
- Xiang Zhao
논문 정보
- arXiv ID: 2604.15190v1
- Categories: cs.AI, cs.CL
- Published: 2026년 4월 16일
- PDF: PDF 다운로드