[Paper] 神经网络尺度定律用于 Boosted Jet 标记

发布: 3天前 (2026年2月18日 GMT+8 02:13)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.15781v1

请提供您希望翻译的具体文本内容，我会按照要求将其翻译成简体中文，并保留原始的链接和格式。

Overview

本文 Neural Scaling Laws for Boosted Jet Tagging 研究了在粒子物理任务中，机器学习模型的性能如何随着计算资源的增加而提升——这呼应了在大型语言模型中推动突破的规模趋势。通过系统地在公开的 JetClass 数据集上训练模型，作者发现了可预测的 “缩放定律”，这些定律说明了当我们增加模型规模、训练数据或计算预算时，准确率会有怎样的提升，并展示了使用低层（原始粒子）特征与高层（工程化）特征时，这些定律的差异。

关键贡献

推导计算最优的扩展律，用于提升喷流分类，量化 FLOPs、模型容量与测试准确率之间的关系。
识别渐近性能上限，通过扩展计算可逼近该上限，为未来高能物理模型提供实际目标。
分析数据重复使用的影响，展示重复使用昂贵的模拟事件如何有效增加“可用”数据集规模并改变扩展指数。
特征层面的比较，证明低层次的粒子级输入提升渐近上限，并在任何固定计算预算下相较于高层次工程特征提供更好性能。
公开训练脚本和扩展律拟合结果，使社区能够复现结果并将该方法应用于其他高能物理或科学数据集。

方法论

数据集与任务 – 作者使用 JetClass 基准，这是一个公开的模拟粒子碰撞事件集合，标记为“boosted W boson”或通用 QCD jet。
模型族 – 探索了两类模型：
- (a) 采用原始粒子四向量（低层）输入的 transformer 风格架构，
- (b) 使用高层 jet 可观测量（如质量、N‑subjettiness）的密集网络。
尺度实验 – 对每个族，他们在系统性变化以下因素的情况下训练大量模型：
- 模型规模（参数数量），
- 训练计算量（FLOPs，近似为 epoch × batch size × model ops），
- 有效数据集规模（包括对相同模拟事件的重复使用）。
拟合幂律形式 – 测试准确率 (A) 被建模为

[ A(N, C) = A_{\infty} - \alpha N^{-\beta} - \gamma C^{-\delta}, ]

其中 (N) 为（有效）训练样本数，(C) 为计算量，(A_{\infty}) 为渐近上限。非线性回归得到尺度指数 (\beta, \delta) 和上限 (A_{\infty})。
交叉验证 – 结果在保留的测试划分上进行验证，并使用不同随机种子重复实验以确保稳健性。

结果与发现

方面	作者观察到的内容
计算规模	测试准确率随计算量呈幂律提升，但回报递减。对于低层特征，指数 (\delta \approx 0.12)；对于高层特征，(\delta \approx 0.08)。
数据集规模	准确率同样随有效数据集规模呈幂律，但指数 (\beta) 对低层输入更大（≈ 0.25），对高层输入较小（≈ 0.15），这表明使用原始粒子时数据效率更高。
渐近极限	低层模型的上限约为 (A_{\infty} \approx 0.985)（AUC），而高层模型的上限约为 (0.970)。即使在无限计算下，这 1.5 % 的差距仍然存在。
数据重复	重复使用模拟事件（即对同一事件进行多次训练）实际上将数据集规模乘以约 1.6 的因子，使得缩放曲线向上平移，但不改变渐近上限。
计算最优 regime	对于给定的计算预算，最佳性能通过根据推导的缩放律平衡模型规模和训练步数来实现，而不是简单地“越大越好”。

实际意义

HEP ML 项目路线图 – 团队可以估算额外的 GPU 时间在喷流标记性能上实际能带来多少提升，避免浪费在过度训练上。
特征工程决策 – 投资于能够暴露原始粒子信息的管道（例如基于图或 Transformer 的模型）比在手工高层可观测量上花费资源能获得更高的最终准确率。
仿真预算规划 – 由于数据重复提供可预测的提升，实验可以用适度增加的训练轮数来换取昂贵的额外 Monte‑Carlo 生成，从而优化整体的计算‑准确度权衡。
基础模型式扩展基准 – 推导出的扩展规律为未来 HEP 中的“基础模型”提供基线；开发者可以将新架构与计算最优曲线进行比较，以评估其新颖性。
向其他领域的迁移 – 该方法论（幂律拟合、计算最优平衡）直接适用于任何数据生成成本高的科学机器学习问题（例如气候建模、天体物理）。

限制与未来工作

仿真保真度 – 本研究仅依赖单一公开数据集；真实世界的探测器效应和堆叠（pile‑up）可能会改变尺度指数。
硬件特定的尺度 – FLOP 计数抽象了内存带宽和并行约束；在专用加速器（TPU、ASIC）上的尺度可能不同。
模型多样性 – 只考察了 transformer 和 dense‑net 基线；卷积、图神经网络或混合架构可能表现出不同的尺度行为。
超越二分类标记 – 将分析扩展到多类或回归任务（例如喷流能量回归）仍是一个未解之题。
理论依据 – 虽然经验幂律拟合良好，但若能提供将物理对称性与尺度指数关联的更深层理论解释，将使结论更有说服力。

底线：通过量化计算、数据和特征选择在 Boosted‑Jet 标记中的相互作用，本文为开发者提供了一个实用的“尺度计算器”，帮助规划实验、分配资源，并推动高能物理机器学习迈向下一个性能前沿。

作者

Matthias Vigl
Nicole Hartman
Michael Kagan
Lukas Heinrich

论文信息

arXiv ID: 2602.15781v1
分类: hep-ex, cs.LG, hep-ph, physics.data-an
发表时间: 2026年2月17日
PDF: 下载 PDF

[Paper] 神经网络尺度定律用于 Boosted Jet 标记

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求