乐观性使 Thompson Sampling 在自适应推断中更稳健

发布: (2026年2月6日 GMT+8 02:52)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06014v1

Overview

本文解决了一个细微但重要的问题:当你在多臂赌博机中使用 Thompson Sampling (TS) 进行探索与利用时,收集到的数据是 自适应 的——每个臂被拉取的次数取决于你迄今为止看到的奖励。这种自适应性会破坏依赖固定样本理论的常规统计保证(例如置信区间)。作者表明,在 TS 中注入适度的 乐观性 可以恢复进行可靠渐近推断所需的“稳定性”,即使有许多臂的表现同样优秀。

关键贡献

  • 方差膨胀 TS 的稳定性证明,适用于任意 (K)-臂高斯赌博机,扩展了仅覆盖两臂的先前结果。
  • 另一种乐观 TS,保持后验方差不变但加入均值奖励,同样被证明是稳定的。
  • 证明两种乐观变体均能实现 渐近有效推断(例如置信区间),且只产生 很小的后悔惩罚
  • 在自适应数据收集下,建立 乐观性(经典探索原则)与 统计稳定性 之间的形式化联系。

方法论

  1. Problem setting – 作者考虑标准的随机 (K)-臂高斯老虎机:每个臂 (i) 产生 i.i.d. 奖励 (r_{i,t}\sim\mathcal N(\mu_i, \sigma^2))。
  2. Thompson Sampling baseline – 在每一轮,TS 从每个臂均值的后验分布中抽样,并选择抽样值最高的臂。
  3. Instability issue – 由于每个臂的拉取次数 (N_i(t)) 是随机的并且与奖励耦合,样本均值的经典中心极限定理(CLT)可能失效;拉取次数需要“集中”在确定性的速率上。
  4. Optimistic modifications
    • Variance‑inflated TS (from Halder et al. 2025): 人为将后验方差放大一个大于 1 的因子后再抽样。
    • Mean‑bonus TS (new): 在后验均值上加上确定性的乐观奖励 (\beta_t),而保持方差不变。
  5. Stability analysis – 通过鞅浓缩、耦合论证以及渐近正态性工具,作者证明在任一修改下,拉取次数 (N_i(t)) 满足
    [ \frac{N_i(t)}{t} \xrightarrow{p} \lambda_i \quad\text{for some deterministic }\lambda_i>0, ]
    这就是有效推断所需的 stability 条件。
  6. Regret evaluation – 他们界定了乐观引入的额外后悔,表明其随时间仅对数增长,即相较于稳定推断的收益,代价是温和的。

结果与发现

变体稳定性(已证明)后悔开销实际推断
标准 TS(在存在多个最优臂时会失败)置信区间可能具有误导性
方差膨胀 TS✅ 适用于任意 (K)额外 (O(\log T)) 的后悔渐近正确的置信区间
均值奖励 TS✅ 适用于任意 (K)额外 (O(\log T)) 的后悔同样的推断保证,实现更简洁

关键要点是,通过膨胀方差或添加均值奖励来引入乐观性——可以迫使每个臂被足够频繁地拉取,从而使中心极限定理生效,即使算法在积极利用最佳臂时也是如此。

实际意义

  • A/B 测试与在线实验 – 当您进行多变体测试并自适应分配流量(例如,bandit 驱动的功能发布)时,使用乐观的 TS 变体可以在不采用昂贵的固定样本设计的情况下,计算 有效 的转化率置信区间。
  • 强化学习流水线 – 许多 RL 系统使用 bandit 风格的探索进行超参数调优或策略选择。将乐观奖励加入后验均值,即可保留下游性能估计的统计保证。
  • 生产服务 – 实现均值奖励版本非常简单(只需在抽样均值上添加一个衰减奖励项)。对于典型的流量规模,额外的后悔几乎可以忽略不计,使其成为相较于原始 TS 的低风险升级。
  • 工具 – 如 banditMABWiser 或自定义的 Python/Go 服务等库可以提供一个 “optimistic” 标志,内部实现方差膨胀或均值奖励,为开发者提供即用的统计可靠的探索策略。

限制与未来工作

  • 本分析假设 已知方差的高斯奖励;将稳定性证明扩展到有界或重尾奖励分布仍是一个未解决的问题。
  • 乐观参数(膨胀因子或奖励计划)虽有理论依据,但在特定领域可能需要经验调优。
  • 本工作侧重 渐近 推断;有限样本的置信区间校准(例如通过自助法)未在本文中讨论。
  • 未来的研究可以探索 上下文多臂赌博机,其中乐观机制必须与高维特征表示相结合,并研究是否能够获得类似的稳定性保证。

作者

  • Shunxing Yan
  • Han Zhong

论文信息

  • arXiv ID: 2602.06014v1
  • 类别: cs.LG, cs.AI, math.OC, math.ST, stat.ML
  • 出版日期: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……