[Paper] 美团商家业务诊断:通过策略引导的双过程用户模拟
发布: (2026年4月17日 GMT+8 00:23)
6 分钟阅读
原文: arXiv
Source: arXiv - 2604.15190v1
概述
本文介绍了 Policy‑Guided Hybrid Simulation (PGHS),这是一种在美团平台上模拟用户群体对商家层面政策变更反应的新方法。通过将大语言模型(LLM)推理与传统机器学习拟合相结合,作者实现了一个更为可靠的“假设”模拟器,可替代数十家商家的高成本线上 A/B 测试。
关键贡献
- Dual‑process simulation framework 将推理导向的 LLM 分支与数据驱动的 ML 分支合并,每个分支处理用户行为的不同方面。
- Policy‑guided alignment layer 从历史轨迹中提取可复用的决策策略,并利用这些策略同步两个分支,防止 LLM 对缺失上下文进行过度理性化。
- Fusion mechanism 将两个分支的预测进行融合,提供互补的校正并提升整体保真度。
- Large‑scale deployment 在美团的线上系统上进行大规模部署,覆盖 101 家商户和超过 26 k 条用户‑商户交互轨迹。
- Empirical gains:整体组级模拟误差降至 8.80 %,比最佳仅推理基线提升 45.8 %,比最佳仅拟合基线提升 40.9 %。
方法论
- 数据收集 – 作者为每个商家收集顺序交互日志(例如,搜索 → 点击 → 购买),形成捕捉用户在现有政策下行为的“轨迹”。
- 政策提取 – 从这些轨迹中学习 决策政策(例如,“如果折扣 > 10 % 且评分 > 4.5,购买概率 ≈ 0.7”)。这些政策是轻量、可解释的规则,可在模型之间共享。
- 双流程架构
- 推理分支(LLM) – 将提取的政策和当前上下文(商家属性、时间等)作为提示输入大型语言模型。它生成 理性 的用户行为预测,填补数据稀疏的空白。
- 拟合分支(ML) – 使用传统的监督模型(如梯度提升树)直接在原始轨迹上训练,捕捉统计规律和 LLM 可能遗漏的隐式习惯。
- 通过政策层对齐 – 两个分支接收相同的政策线索,确保它们基于观测到的决策模式,降低 LLM 幻觉的倾向。
- 融合 – 将两种预测结合(使用学习到的置信度得分进行加权平均),得到在假设商家政策下的用户行为的最终群体层面估计。
整个管道离线运行,使得在不让真实用户接触实验性变化的前提下,能够快速进行反事实分析。
结果与发现
| 指标 | PGHS | 最佳仅推理 | 最佳仅拟合 |
|---|---|---|---|
| 组模拟误差 (↓) | 8.80 % | 16.30 % | 14.85 % |
| 相对改进 | — | 减少45.8 % | 减少40.9 % |
- 误差降低 在不同规模的商家以及不同的政策杠杆(折扣率、推荐位等)之间保持一致。
- 消融研究 表明,去除政策引导的对齐会使 LLM 误差增加约12 %,确认其稳定作用。
- 融合收益:仅使用单一分支的误差超过12 %;组合输出始终优于任何单独组件。
实际意义
- Cost‑effective experimentation – Companies can evaluate dozens of merchant‑level tweaks in a sandbox environment, cutting down on expensive, time‑consuming A/B tests.
- Faster product cycles – Product managers get near‑real‑time feedback on policy proposals, enabling rapid iteration on pricing, promotion, or UI changes.
- Risk mitigation – Simulating worst‑case scenarios before rollout helps avoid revenue drops or user churn caused by poorly calibrated incentives.
- Transferability – The policy‑guided dual‑process design is platform‑agnostic; it can be adapted to other marketplaces (e‑commerce, ride‑hailing, streaming) where group‑level user simulation is valuable.
- Developer‑friendly tooling – The authors expose the policy extraction and fusion logic as modular components, making integration into existing data pipelines straightforward.
限制与未来工作
- 上下文盲点 – 虽然策略层抑制了过度理性化,但大型语言模型仍依赖提示的质量;罕见或新颖的上下文可能被误预测。
- 策略挖掘的可扩展性 – 从极大或高度异构的数据集提取可解释的策略可能计算成本高昂;论文建议使用近似规则挖掘作为可能的解决方案。
- 评估范围 – 实验聚焦于群体层面的指标;个人用户的个性化效果尚未探索。
- 未来方向 – 将 PGHS 扩展以纳入基于强化学习的策略更新、在跨域数据集上进行测试,以及自动化融合的置信权重学习,被强调为下一步工作。
作者
- Ziyang Chen
- Renbing Chen
- Daowei Li
- Jinzhi Liao
- Jiashen Sun
- Ke Zeng
- Xiang Zhao
论文信息
- arXiv ID: 2604.15190v1
- Categories: cs.AI, cs.CL
- 出版日期: 2026年4月16日
- PDF: 下载 PDF