乐观性使 Thompson Sampling 在自适应推断中更稳健

发布: 3天前 (2026年2月6日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06014v1

Overview

本文解决了一个细微但重要的问题：当你在多臂赌博机中使用 Thompson Sampling (TS) 进行探索与利用时，收集到的数据是 自适应 的——每个臂被拉取的次数取决于你迄今为止看到的奖励。这种自适应性会破坏依赖固定样本理论的常规统计保证（例如置信区间）。作者表明，在 TS 中注入适度的 乐观性 可以恢复进行可靠渐近推断所需的“稳定性”，即使有许多臂的表现同样优秀。

关键贡献

方差膨胀 TS 的稳定性证明，适用于任意 (K)-臂高斯赌博机，扩展了仅覆盖两臂的先前结果。
另一种乐观 TS，保持后验方差不变但加入均值奖励，同样被证明是稳定的。
证明两种乐观变体均能实现 渐近有效推断（例如置信区间），且只产生 很小的后悔惩罚。
在自适应数据收集下，建立 乐观性（经典探索原则）与 统计稳定性 之间的形式化联系。

方法论

Problem setting – 作者考虑标准的随机 (K)-臂高斯老虎机：每个臂 (i) 产生 i.i.d. 奖励 (r_{i,t}\sim\mathcal N(\mu_i, \sigma^2))。
Thompson Sampling baseline – 在每一轮，TS 从每个臂均值的后验分布中抽样，并选择抽样值最高的臂。
Instability issue – 由于每个臂的拉取次数 (N_i(t)) 是随机的并且与奖励耦合，样本均值的经典中心极限定理（CLT）可能失效；拉取次数需要“集中”在确定性的速率上。
Optimistic modifications
- Variance‑inflated TS (from Halder et al. 2025): 人为将后验方差放大一个大于 1 的因子后再抽样。
- Mean‑bonus TS (new): 在后验均值上加上确定性的乐观奖励 (\beta_t)，而保持方差不变。
Stability analysis – 通过鞅浓缩、耦合论证以及渐近正态性工具，作者证明在任一修改下，拉取次数 (N_i(t)) 满足
[ \frac{N_i(t)}{t} \xrightarrow{p} \lambda_i \quad\text{for some deterministic }\lambda_i>0, ]
这就是有效推断所需的 stability 条件。
Regret evaluation – 他们界定了乐观引入的额外后悔，表明其随时间仅对数增长，即相较于稳定推断的收益，代价是温和的。

结果与发现

变体	稳定性（已证明）	后悔开销	实际推断
标准 TS	否（在存在多个最优臂时会失败）	–	置信区间可能具有误导性
方差膨胀 TS	✅ 适用于任意 (K)	额外 (O(\log T)) 的后悔	渐近正确的置信区间
均值奖励 TS	✅ 适用于任意 (K)	额外 (O(\log T)) 的后悔	同样的推断保证，实现更简洁

关键要点是，通过膨胀方差或添加均值奖励来引入乐观性——可以迫使每个臂被足够频繁地拉取，从而使中心极限定理生效，即使算法在积极利用最佳臂时也是如此。

实际意义

A/B 测试与在线实验 – 当您进行多变体测试并自适应分配流量（例如，bandit 驱动的功能发布）时，使用乐观的 TS 变体可以在不采用昂贵的固定样本设计的情况下，计算有效的转化率置信区间。
强化学习流水线 – 许多 RL 系统使用 bandit 风格的探索进行超参数调优或策略选择。将乐观奖励加入后验均值，即可保留下游性能估计的统计保证。
生产服务 – 实现均值奖励版本非常简单（只需在抽样均值上添加一个衰减奖励项）。对于典型的流量规模，额外的后悔几乎可以忽略不计，使其成为相较于原始 TS 的低风险升级。
工具 – 如 bandit、MABWiser 或自定义的 Python/Go 服务等库可以提供一个 “optimistic” 标志，内部实现方差膨胀或均值奖励，为开发者提供即用的统计可靠的探索策略。

限制与未来工作

本分析假设 已知方差的高斯奖励；将稳定性证明扩展到有界或重尾奖励分布仍是一个未解决的问题。
乐观参数（膨胀因子或奖励计划）虽有理论依据，但在特定领域可能需要经验调优。
本工作侧重渐近推断；有限样本的置信区间校准（例如通过自助法）未在本文中讨论。
未来的研究可以探索 上下文多臂赌博机，其中乐观机制必须与高维特征表示相结合，并研究是否能够获得类似的稳定性保证。

作者

Shunxing Yan
Han Zhong

论文信息

arXiv ID: 2602.06014v1
类别: cs.LG, cs.AI, math.OC, math.ST, stat.ML
出版日期: 2026年2月5日
PDF: 下载 PDF

乐观性使 Thompson Sampling 在自适应推断中更稳健

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同