[Paper] 预训练模型表征作为主动学习的获取信号用于MLIPs

发布: 5天前 (2026年5月6日 GMT+8 00:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.03964v1

Overview

训练用于反应化学的机器学习原子间势（MLIP）成本极高，因为每个量子化学标签（能量、力）可能需要数小时的计算。本文展示了一个 预训练的 MLIP 已经在其隐藏层中携带了足够的信息，能够指导主动学习（AL）数据选择——无需额外的不确定性头、贝叶斯技巧或集成方法。通过直接从预训练模型中提取简单的基于核的获取信号，作者显著减少了达到目标精度所需的昂贵量子计算次数。

关键贡献

潜在空间获取信号: 引入两种核——(1) 有限宽度的神经切线核 (NTK) 和 (2) 基于预训练 MACE 势能的隐藏激活构建的激活核。
无需额外不确定性机制: 证明这些核在没有辅助头、贝叶斯训练、微调或委员会集成的情况下也能工作。
经验优势: 在多个反应化学基准上，两种核均优于传统固定描述符基线、委员会分歧和随机采样，分别削减约 ≈38 % 的能量误差目标所需数据和约 ≈28 % 的力误差目标所需数据。
化学意义的相似性空间: 显示预训练模型的潜在几何保持了与反应相关的结构，提供比随机或固定描述符核更可靠的残差不确定性估计。
实用的主动学习管线: 提供可直接嵌入现有 MLIP 训练循环的获取策略，开销极小。

方法论

在大规模通用分子构型数据集上预训练 MACE 势（不涉及主动学习循环）。
提取潜在特征： 对于任意候选构型，评估模型的隐藏层以获取激活向量。
构建核函数：
- NTK： 使用有限宽度网络的梯度近似两个输入之间基于雅可比的相似度。
- 激活核： 计算选定隐藏层激活向量的简单内积（或余弦相似度）。
获取分数： 对每个未标记的候选，使用核函数估计其 残差不确定性——即它相对于已标记数据所张成子空间的距离。最“新颖”的点（不确定性最大）被查询以获取量子化学标签。
迭代主动学习循环： 将新标记的点加入，微调 MACE 模型，并重复，直至达到目标误差。

所有步骤仅依赖对预训练网络的前向传播；无需额外训练不确定性头或集成模型。

结果与发现

基准	指标	随机	固定描述符	委员会	NTK	激活核
反应性分子动力学（例如，Diels‑Alder）	能量 MAE ↓	1.2 meV/atom	0.9 meV/atom	0.8 meV/atom	0.5 meV/atom	0.5 meV/atom
同一组	力 MAE ↓	0.07 eV/Å	0.06 eV/Å	0.05 eV/Å	0.04 eV/Å	0.04 eV/Å

两个核都比最强基线更快达到预设的误差阈值 38 %（能量）和 28 %（力）。
对潜在空间的可视化揭示了对应于不同化学环境（反应物、过渡态、产物）的簇，证实了预训练模型的几何结构具有化学感知能力。
从核中得到的残差不确定性估计与真实预测误差的相关性很强（Pearson ≈ 0.78），优于随机初始化的核（Pearson ≈ 0.45）。

实际意义

降低量子化学预算： 现在团队可以使用 约 30 % 更少的昂贵 DFT 计算 来训练高保真反应性 MLIP，加速材料发现流程。
简化主动学习流水线： 开发者无需再维护集成模型或实现贝叶斯神经网络技巧；一次前向传播预训练模型即可完成采集。
即插即用于现有框架： 这些核函数可以包装成即插即用的采集函数，集成到流行的主动学习库（如 alchemlyb、modAL）中。
更好的可迁移性： 由于潜在空间已经捕获了化学相关的相似性，同一预训练模型可在多个反应族之间复用，进一步摊销预训练成本。
实时细化的潜力： 在分子动力学模拟中，核函数可以实时标记“分布外”帧，仅在真正需要时触发即时的量子计算。

局限性与未来工作

对预训练质量的依赖： 如果初始 MACE 模型在狭窄的化学空间上进行训练，潜在几何结构可能无法泛化，从而限制获取效果。
核计算的可扩展性： 虽然对适度规模的候选池来说成本低廉，但对数百万个构型计算成对核值可能成为瓶颈；可能需要使用近似最近邻方法。
超出 MACE 的扩展： 本研究聚焦于 MACE 架构；验证该方法对其他机器学习原子势族（如 NequIP、PaiNN）同样有效仍是一个未解之问。
动态反应网络： 基准测试涉及相对明确的反应路径；将该方法应用于高度复杂的多步机制将检验潜在空间信号的鲁棒性。

底线： 通过利用已嵌入预训练原子间势中的隐藏知识，本文提供了一种简洁且高效的主动学习策略，可将反应性 MLIP 的开发周期缩短数周——这对任何构建下一代模拟工具的开发者而言都是极具吸引力的前景。

作者

Eszter Varga-Umbrich
Shikha Surana
Paul Duckworth
Jules Tilly
Olivier Peltre
Zachary Weller-Davies

论文信息

arXiv ID: 2605.03964v1
分类: cs.LG, physics.chem-ph
发表时间: 2026年5月5日
PDF: 下载 PDF

[Paper] 预训练模型表征作为主动学习的获取信号用于MLIPs

Overview

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择