[Paper] 学习分箱：可微分和贝叶斯优化用于高能物理中的多维判别器

发布: 1周前 (2026年1月13日 GMT+8 01:40)

7 min read

原文: arXiv

Source: arXiv - 2601.07756v1

概览

本文提出了一种数据驱动的方法来决定 如何对 高能物理（HEP）中使用的机器学习分类器的输出进行分箱。作者不再手动选择分箱边界或仅依赖简单的一维投影，而是提出了灵活且可学习的分箱边界，这些边界直接针对 信号显著性（用于衡量新粒子发现能力的指标）进行优化。通过将分箱视为一个优化问题，他们在相同的分箱数量下实现了更高的灵敏度，并发布了可直接嵌入现有分析流程的即用型 Python 插件。

关键贡献

可学习的分箱模型：使用高斯混合模型（GMM）为多类分类器分数定义多维分箱形状，并在一维情况下直接移动分箱边界。
两种优化策略：
1. 可微分优化 – 梯度可以通过分箱模型传播，支持使用标准深度学习工具包进行端到端调优。
2. 贝叶斯优化 – 一种黑箱方法，在没有梯度的情况下高效搜索分箱边界空间。
在玩具问题上的实证验证：展示了在二分类和三分类设置中信号显著性提升，尤其在信号与背景仅弱可分时效果显著。
开源 Python 插件：轻量、框架无关的包，可集成到 ROOT、scikit‑learn、PyTorch 或 TensorFlow 工作流中。

方法论

问题框架 – 在 HEP 分析中，事件通过分类器（例如神经网络）打分后被划分到不同的区间；每个区间的事件计数用于统计检验。作者将区间边界的设置视为一组需要优化的参数。
区间表示
- 一维情况：区间边界是可以连续移动的标量阈值。
- 多维情况：使用具有 K 个分量的 GMM（高斯混合模型）来建模决策面。每个分量定义分类器得分空间中的一个区域；这些分量的并集形成一个区间。GMM 参数（均值、协方差、混合权重）成为可调变量。
目标函数 – 经典的 Asimov significance（或类似的信号/√背景度量）根据每个区间的期望信号和背景产额计算。优化器的目标是最大化该量。
优化
- 可微分：将 Asimov 公式做可微分处理（使用软近似代替将事件分配到区间的阶跃函数）。自动微分工具计算相对于 GMM 参数的梯度，并使用 Adam 等优化器进行更新。
- 贝叶斯：将显著性视为区间参数的黑箱函数。Gaussian‑process 代理模型提出新的参数集合，在探索与利用之间取得平衡。

Results & Findings

Setup	Baseline (equidistant bins)	Argmax projection	Optimized GMM (Bayesian)	Optimized GMM (Differentiable)
Binary, 5 bins	1.00×（参考）	1.08×	1.15×	1.18×
3‑class, 6 bins	1.00×	1.05×	1.12×	1.20×

两种优化策略始终 优于手工等距分箱。
可微分方法 在分类器决策边界模糊（可分性低）时能够获得最高的显著性提升。
在多维情形下，基于 GMM 的分箱能够捕捉类别分数之间的复杂相关性，而简单的 argmax 投影做不到。
这些提升意味着 在相同的发现能力下所需的分箱更少，从而降低了因大量类别带来的统计惩罚。

实际意义

降低分析复杂度 – 更少且信息量更大的分箱意味着更简洁的似然拟合，并加快大数据集的处理速度。
即插即用的集成 – 提供的 Python 插件可在任何分类器训练步骤后调用，适用于现有的 HEP 软件栈（ROOT、scikit‑learn、PyTorch）。
更佳的资源利用率 – 每个分箱更高的显著性可以降低背景建模所需的模拟数据量，从而降低计算成本。
跨领域相关性 – 任何对分类器得分进行分箱以进行后续统计检验的领域（例如医学影像分诊、欺诈检测），都可以采用相同的框架，在不重新设计分类器的情况下提升检测能力。

限制与未来工作

玩具级验证 – 实验仅限于合成数据集；真实的高能物理分析涉及系统不确定性、探测器效应以及可能影响性能的高维特征空间。
GMM 的可扩展性 – 混合成分的数量随所需粒度增加；对于非常高维的得分向量，训练可能变得昂贵。
贝叶斯开销 – 虽然不需要梯度，但贝叶斯优化可能需要大量函数评估，当每次显著性评估涉及完整的似然拟合时，这可能难以承受。
作者提出的未来方向 包括：将方法直接扩展以处理系统不确定性作为目标函数的一部分，探索替代的灵活分箱模型（例如归一化流），以及在完整的 LHC 分析上进行基准测试，以量化真实的发现收益。

作者

Johannes Erdmann
Nitish Kumar Kasaraguppe
Florian Mausolf

论文信息

arXiv ID: 2601.07756v1
分类: physics.data-an, cs.LG, hep-ex
出版时间: 2026年1月12日
PDF: 下载 PDF

[Paper] 学习分箱：可微分和贝叶斯优化用于高能物理中的多维判别器

概览

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理