[Paper] 预训练模型表征作为主动学习的获取信号用于MLIPs
发布: (2026年5月6日 GMT+8 00:48)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.03964v1
Overview
训练用于反应化学的机器学习原子间势(MLIP)成本极高,因为每个量子化学标签(能量、力)可能需要数小时的计算。本文展示了一个 预训练的 MLIP 已经在其隐藏层中携带了足够的信息,能够指导主动学习(AL)数据选择——无需额外的不确定性头、贝叶斯技巧或集成方法。通过直接从预训练模型中提取简单的基于核的获取信号,作者显著减少了达到目标精度所需的昂贵量子计算次数。
关键贡献
- 潜在空间获取信号: 引入两种核——(1) 有限宽度的神经切线核 (NTK) 和 (2) 基于预训练 MACE 势能的隐藏激活构建的激活核。
- 无需额外不确定性机制: 证明这些核在没有辅助头、贝叶斯训练、微调或委员会集成的情况下也能工作。
- 经验优势: 在多个反应化学基准上,两种核均优于传统固定描述符基线、委员会分歧和随机采样,分别削减约 ≈38 % 的能量误差目标所需数据和约 ≈28 % 的力误差目标所需数据。
- 化学意义的相似性空间: 显示预训练模型的潜在几何保持了与反应相关的结构,提供比随机或固定描述符核更可靠的残差不确定性估计。
- 实用的主动学习管线: 提供可直接嵌入现有 MLIP 训练循环的获取策略,开销极小。
方法论
- 在大规模通用分子构型数据集上预训练 MACE 势(不涉及主动学习循环)。
- 提取潜在特征: 对于任意候选构型,评估模型的隐藏层以获取激活向量。
- 构建核函数:
- NTK: 使用有限宽度网络的梯度近似两个输入之间基于雅可比的相似度。
- 激活核: 计算选定隐藏层激活向量的简单内积(或余弦相似度)。
- 获取分数: 对每个未标记的候选,使用核函数估计其 残差不确定性——即它相对于已标记数据所张成子空间的距离。最“新颖”的点(不确定性最大)被查询以获取量子化学标签。
- 迭代主动学习循环: 将新标记的点加入,微调 MACE 模型,并重复,直至达到目标误差。
所有步骤仅依赖对预训练网络的前向传播;无需额外训练不确定性头或集成模型。
结果与发现
| 基准 | 指标 | 随机 | 固定描述符 | 委员会 | NTK | 激活核 |
|---|---|---|---|---|---|---|
| 反应性分子动力学(例如,Diels‑Alder) | 能量 MAE ↓ | 1.2 meV/atom | 0.9 meV/atom | 0.8 meV/atom | 0.5 meV/atom | 0.5 meV/atom |
| 同一组 | 力 MAE ↓ | 0.07 eV/Å | 0.06 eV/Å | 0.05 eV/Å | 0.04 eV/Å | 0.04 eV/Å |
- 两个核都比最强基线更 快 达到预设的误差阈值 38 %(能量)和 28 %(力)。
- 对潜在空间的可视化揭示了对应于不同化学环境(反应物、过渡态、产物)的簇,证实了预训练模型的几何结构具有化学感知能力。
- 从核中得到的残差不确定性估计与真实预测误差的相关性很强(Pearson ≈ 0.78),优于随机初始化的核(Pearson ≈ 0.45)。
实际意义
- 降低量子化学预算: 现在团队可以使用 约 30 % 更少的昂贵 DFT 计算 来训练高保真反应性 MLIP,加速材料发现流程。
- 简化主动学习流水线: 开发者无需再维护集成模型或实现贝叶斯神经网络技巧;一次前向传播预训练模型即可完成采集。
- 即插即用于现有框架: 这些核函数可以包装成即插即用的采集函数,集成到流行的主动学习库(如
alchemlyb、modAL)中。 - 更好的可迁移性: 由于潜在空间已经捕获了化学相关的相似性,同一预训练模型可在多个反应族之间复用,进一步摊销预训练成本。
- 实时细化的潜力: 在分子动力学模拟中,核函数可以实时标记“分布外”帧,仅在真正需要时触发即时的量子计算。
局限性与未来工作
- 对预训练质量的依赖: 如果初始 MACE 模型在狭窄的化学空间上进行训练,潜在几何结构可能无法泛化,从而限制获取效果。
- 核计算的可扩展性: 虽然对适度规模的候选池来说成本低廉,但对数百万个构型计算成对核值可能成为瓶颈;可能需要使用近似最近邻方法。
- 超出 MACE 的扩展: 本研究聚焦于 MACE 架构;验证该方法对其他机器学习原子势族(如 NequIP、PaiNN)同样有效仍是一个未解之问。
- 动态反应网络: 基准测试涉及相对明确的反应路径;将该方法应用于高度复杂的多步机制将检验潜在空间信号的鲁棒性。
底线: 通过利用已嵌入预训练原子间势中的隐藏知识,本文提供了一种简洁且高效的主动学习策略,可将反应性 MLIP 的开发周期缩短数周——这对任何构建下一代模拟工具的开发者而言都是极具吸引力的前景。
作者
- Eszter Varga-Umbrich
- Shikha Surana
- Paul Duckworth
- Jules Tilly
- Olivier Peltre
- Zachary Weller-Davies
论文信息
- arXiv ID: 2605.03964v1
- 分类: cs.LG, physics.chem-ph
- 发表时间: 2026年5月5日
- PDF: 下载 PDF