乐观性使 Thompson Sampling 在自适应推断中更稳健
发布: (2026年2月6日 GMT+8 02:52)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06014v1
Overview
本文解决了一个细微但重要的问题:当你在多臂赌博机中使用 Thompson Sampling (TS) 进行探索与利用时,收集到的数据是 自适应 的——每个臂被拉取的次数取决于你迄今为止看到的奖励。这种自适应性会破坏依赖固定样本理论的常规统计保证(例如置信区间)。作者表明,在 TS 中注入适度的 乐观性 可以恢复进行可靠渐近推断所需的“稳定性”,即使有许多臂的表现同样优秀。
关键贡献
- 方差膨胀 TS 的稳定性证明,适用于任意 (K)-臂高斯赌博机,扩展了仅覆盖两臂的先前结果。
- 另一种乐观 TS,保持后验方差不变但加入均值奖励,同样被证明是稳定的。
- 证明两种乐观变体均能实现 渐近有效推断(例如置信区间),且只产生 很小的后悔惩罚。
- 在自适应数据收集下,建立 乐观性(经典探索原则)与 统计稳定性 之间的形式化联系。
方法论
- Problem setting – 作者考虑标准的随机 (K)-臂高斯老虎机:每个臂 (i) 产生 i.i.d. 奖励 (r_{i,t}\sim\mathcal N(\mu_i, \sigma^2))。
- Thompson Sampling baseline – 在每一轮,TS 从每个臂均值的后验分布中抽样,并选择抽样值最高的臂。
- Instability issue – 由于每个臂的拉取次数 (N_i(t)) 是随机的并且与奖励耦合,样本均值的经典中心极限定理(CLT)可能失效;拉取次数需要“集中”在确定性的速率上。
- Optimistic modifications
- Variance‑inflated TS (from Halder et al. 2025): 人为将后验方差放大一个大于 1 的因子后再抽样。
- Mean‑bonus TS (new): 在后验均值上加上确定性的乐观奖励 (\beta_t),而保持方差不变。
- Stability analysis – 通过鞅浓缩、耦合论证以及渐近正态性工具,作者证明在任一修改下,拉取次数 (N_i(t)) 满足
[ \frac{N_i(t)}{t} \xrightarrow{p} \lambda_i \quad\text{for some deterministic }\lambda_i>0, ]
这就是有效推断所需的 stability 条件。 - Regret evaluation – 他们界定了乐观引入的额外后悔,表明其随时间仅对数增长,即相较于稳定推断的收益,代价是温和的。
结果与发现
| 变体 | 稳定性(已证明) | 后悔开销 | 实际推断 |
|---|---|---|---|
| 标准 TS | 否(在存在多个最优臂时会失败) | – | 置信区间可能具有误导性 |
| 方差膨胀 TS | ✅ 适用于任意 (K) | 额外 (O(\log T)) 的后悔 | 渐近正确的置信区间 |
| 均值奖励 TS | ✅ 适用于任意 (K) | 额外 (O(\log T)) 的后悔 | 同样的推断保证,实现更简洁 |
关键要点是,通过膨胀方差或添加均值奖励来引入乐观性——可以迫使每个臂被足够频繁地拉取,从而使中心极限定理生效,即使算法在积极利用最佳臂时也是如此。
实际意义
- A/B 测试与在线实验 – 当您进行多变体测试并自适应分配流量(例如,bandit 驱动的功能发布)时,使用乐观的 TS 变体可以在不采用昂贵的固定样本设计的情况下,计算 有效 的转化率置信区间。
- 强化学习流水线 – 许多 RL 系统使用 bandit 风格的探索进行超参数调优或策略选择。将乐观奖励加入后验均值,即可保留下游性能估计的统计保证。
- 生产服务 – 实现均值奖励版本非常简单(只需在抽样均值上添加一个衰减奖励项)。对于典型的流量规模,额外的后悔几乎可以忽略不计,使其成为相较于原始 TS 的低风险升级。
- 工具 – 如
bandit、MABWiser或自定义的 Python/Go 服务等库可以提供一个 “optimistic” 标志,内部实现方差膨胀或均值奖励,为开发者提供即用的统计可靠的探索策略。
限制与未来工作
- 本分析假设 已知方差的高斯奖励;将稳定性证明扩展到有界或重尾奖励分布仍是一个未解决的问题。
- 乐观参数(膨胀因子或奖励计划)虽有理论依据,但在特定领域可能需要经验调优。
- 本工作侧重 渐近 推断;有限样本的置信区间校准(例如通过自助法)未在本文中讨论。
- 未来的研究可以探索 上下文多臂赌博机,其中乐观机制必须与高维特征表示相结合,并研究是否能够获得类似的稳定性保证。
作者
- Shunxing Yan
- Han Zhong
论文信息
- arXiv ID: 2602.06014v1
- 类别: cs.LG, cs.AI, math.OC, math.ST, stat.ML
- 出版日期: 2026年2月5日
- PDF: 下载 PDF