[Paper] Conformal Bandits:将统计有效性和奖励效率引入小间隙 regime

发布: (2025年12月11日 GMT+8 01:34)
7 min read
原文: arXiv

Source: arXiv - 2512.09850v1

Overview

论文 Conformal Bandits 提出了一种将两种强大思想——共形预测(一种提供有限样本统计保证的技术)和多臂老虎机(在线决策的主力工具)——相结合的新方法。通过这样做,作者得到的算法不仅在极其困难的 小差距 regime(最佳动作与次优动作之间的差距极小)中保持低 regret,还对预测的奖励提供了明确的覆盖保证。实验包括一个真实的投资组合分配任务,表明在奖励差距极小的情况下,这种混合方法能够击败经典的老虎机方法,如 UCB 和 Thompson Sampling。

Key Contributions

  • 共形老虎机框架:提出了一种将共形预测区间嵌入任意老虎机策略的原则性方法,将关注 regret 的算法转化为统计上有效的预测器。
  • 有限时间覆盖保证:证明所构造的预测集合在不依赖渐近假设的情况下实现所需的覆盖概率。
  • 小差距分析:展示新方法在奖励差异极小的设置下比传统的 UCB/TS 获得更低的 regret,这一 regime 中经典界限往往失效。
  • 隐马尔可夫模型 (HMM) 集成:展示如何使用 HMM 对金融数据的 regime 转换建模,从而进一步提升探索‑利用平衡并获得更高的风险调整收益。
  • 实证验证:提供仿真研究和真实世界的投资组合分配实验,说明了 regret 的降低和可靠的覆盖。

Methodology

  1. 基础老虎机策略 – 以任意标准老虎机算法为起点(例如 UCB、Thompson Sampling)。
  2. 共形得分构造 – 每轮结束后,计算观察到的奖励的非符合度得分(例如奖励与策略预测均值之间的绝对残差)。
  3. 预测集合更新 – 使用过去得分的集合,形成基于分位数的预测区间,依据共形预测保证,该区间以至少 (1-\alpha) 的概率包含下一个奖励。
  4. 决策规则 – 老虎机选择其共形区间上界最高的臂(或其他效用函数),从而在探索(宽区间)和利用(高预测奖励)之间取得平衡。
  5. HMM 扩展 – 对于非平稳环境(如金融市场),在线拟合 HMM 以捕获潜在 regime。共形得分在推断的隐藏状态条件下计算,使区间能够适应 regime 变化。

所有步骤计算量轻量:共形分位数可在每轮 O(1) 时间内更新,HMM 推断使用标准的前向‑后向递归。

Results & Findings

实验基准共形老虎机 (CB)regret 降低覆盖率(目标 95 %)
合成小差距老虎机 (Δ = 0.02)UCBCB‑UCB≈30 % 更低 累计 regret94.8 %
Thompson Sampling (TS) vs. CB‑TSTSCB‑TS≈22 % 更低 regret95.3 %
投资组合分配(日收益)UCB‑PortfolioCB‑UCB + HMM≈15 % 更高 夏普比率(风险调整收益)96.1 %

关键要点

  • 在小差距 regime 中,经典的 UCB/TS 因臂选择方差大而导致 regret 增大。共形区间充当一种 自校准 的置信度度量,抑制了不必要的探索。
  • 即使只有约 100 轮,覆盖率仍接近标称水平,验证了有限样本保证。
  • 将 HMM 用于建模市场 regime 进一步提升性能,尤其在奖励分布突变时表现突出。

Practical Implications

  • A/B 测试与在线实验:当变体之间的提升极小,共形老虎机能够更快做出决策,同时提供统计保证,防止观察到的提升是偶然。
  • 广告技术竞价:实时竞价常在 CPM 差异极小的情况下进行;该方法可通过可靠识别略优的广告位来减少浪费支出。
  • 金融算法交易:组合管理者可使用 HMM 增强版以适应市场 regime 变化,在不牺牲对预测收益的统计置信度的前提下实现更好的风险调整回报。
  • 机器人与控制:在安全关键的场景中,动作的期望成本几乎相同,共形区间在提交控制输入前提供额外的安全保障。

实现非常简便:只需在任意现有的老虎机库外层套上一层共形预测包装器,必要时再接入 HMM 模块以处理非平稳数据流。

Limitations & Future Work

  • 向多臂扩展的可伸缩性:当前分析聚焦于臂数较少的情况(≤10)。将框架推广到高维动作空间(如具有大量特征的上下文老虎机)可能需要更高效的分位数估计技术。
  • 非符合度得分的选择:论文使用了简单的绝对残差;更复杂的得分可能提升区间紧凑度,但需要仔细校准。
  • 理论 regret 界:虽然展示了经验上的 regret 改进,但将共形覆盖项纳入的正式 regret 界仍是未解问题。
  • 对模型误设的鲁棒性:HMM 假设有限个 regime,实际市场可能呈现更复杂的动态。未来工作可探索非参数 regime‑切换模型或基于深度学习的潜在状态估计器。

Authors

  • Simone Cuonzo
  • Nina Deliu

Paper Information

  • arXiv ID: 2512.09850v1
  • Categories: cs.LG
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »