[Paper] 学习分箱:可微分和贝叶斯优化用于高能物理中的多维判别器
发布: (2026年1月13日 GMT+8 01:40)
7 min read
原文: arXiv
Source: arXiv - 2601.07756v1
概览
本文提出了一种数据驱动的方法来决定 如何对 高能物理(HEP)中使用的机器学习分类器的输出进行分箱。作者不再手动选择分箱边界或仅依赖简单的一维投影,而是提出了灵活且可学习的分箱边界,这些边界直接针对 信号显著性(用于衡量新粒子发现能力的指标)进行优化。通过将分箱视为一个优化问题,他们在相同的分箱数量下实现了更高的灵敏度,并发布了可直接嵌入现有分析流程的即用型 Python 插件。
关键贡献
- 可学习的分箱模型:使用高斯混合模型(GMM)为多类分类器分数定义多维分箱形状,并在一维情况下直接移动分箱边界。
- 两种优化策略:
- 可微分优化 – 梯度可以通过分箱模型传播,支持使用标准深度学习工具包进行端到端调优。
- 贝叶斯优化 – 一种黑箱方法,在没有梯度的情况下高效搜索分箱边界空间。
- 在玩具问题上的实证验证:展示了在二分类和三分类设置中信号显著性提升,尤其在信号与背景仅弱可分时效果显著。
- 开源 Python 插件:轻量、框架无关的包,可集成到 ROOT、scikit‑learn、PyTorch 或 TensorFlow 工作流中。
方法论
- 问题框架 – 在 HEP 分析中,事件通过分类器(例如神经网络)打分后被划分到不同的区间;每个区间的事件计数用于统计检验。作者将区间边界的设置视为一组需要优化的参数。
- 区间表示
- 一维情况:区间边界是可以连续移动的标量阈值。
- 多维情况:使用具有 K 个分量的 GMM(高斯混合模型)来建模决策面。每个分量定义分类器得分空间中的一个区域;这些分量的并集形成一个区间。GMM 参数(均值、协方差、混合权重)成为可调变量。
- 目标函数 – 经典的 Asimov significance(或类似的信号/√背景度量)根据每个区间的期望信号和背景产额计算。优化器的目标是最大化该量。
- 优化
- 可微分:将 Asimov 公式做可微分处理(使用软近似代替将事件分配到区间的阶跃函数)。自动微分工具计算相对于 GMM 参数的梯度,并使用 Adam 等优化器进行更新。
- 贝叶斯:将显著性视为区间参数的黑箱函数。Gaussian‑process 代理模型提出新的参数集合,在探索与利用之间取得平衡。
Results & Findings
| Setup | Baseline (equidistant bins) | Argmax projection | Optimized GMM (Bayesian) | Optimized GMM (Differentiable) |
|---|---|---|---|---|
| Binary, 5 bins | 1.00×(参考) | 1.08× | 1.15× | 1.18× |
| 3‑class, 6 bins | 1.00× | 1.05× | 1.12× | 1.20× |
- 两种优化策略始终 优于手工等距分箱。
- 可微分方法 在分类器决策边界模糊(可分性低)时能够获得最高的显著性提升。
- 在多维情形下,基于 GMM 的分箱能够捕捉类别分数之间的复杂相关性,而简单的 argmax 投影做不到。
- 这些提升意味着 在相同的发现能力下所需的分箱更少,从而降低了因大量类别带来的统计惩罚。
实际意义
- 降低分析复杂度 – 更少且信息量更大的分箱意味着更简洁的似然拟合,并加快大数据集的处理速度。
- 即插即用的集成 – 提供的 Python 插件可在任何分类器训练步骤后调用,适用于现有的 HEP 软件栈(ROOT、scikit‑learn、PyTorch)。
- 更佳的资源利用率 – 每个分箱更高的显著性可以降低背景建模所需的模拟数据量,从而降低计算成本。
- 跨领域相关性 – 任何对分类器得分进行分箱以进行后续统计检验的领域(例如医学影像分诊、欺诈检测),都可以采用相同的框架,在不重新设计分类器的情况下提升检测能力。
限制与未来工作
- 玩具级验证 – 实验仅限于合成数据集;真实的高能物理分析涉及系统不确定性、探测器效应以及可能影响性能的高维特征空间。
- GMM 的可扩展性 – 混合成分的数量随所需粒度增加;对于非常高维的得分向量,训练可能变得昂贵。
- 贝叶斯开销 – 虽然不需要梯度,但贝叶斯优化可能需要大量函数评估,当每次显著性评估涉及完整的似然拟合时,这可能难以承受。
- 作者提出的未来方向 包括:将方法直接扩展以处理系统不确定性作为目标函数的一部分,探索替代的灵活分箱模型(例如归一化流),以及在完整的 LHC 分析上进行基准测试,以量化真实的发现收益。
作者
- Johannes Erdmann
- Nitish Kumar Kasaraguppe
- Florian Mausolf
论文信息
- arXiv ID: 2601.07756v1
- 分类: physics.data-an, cs.LG, hep-ex
- 出版时间: 2026年1月12日
- PDF: 下载 PDF