[Paper] 数据驱动随机降阶建模参数化动力系统
发布: (2026年1月16日 GMT+8 02:50)
7 min read
原文: arXiv
Source: arXiv - 2601.10690v1
概述
本文提出了一种 data‑driven framework for building stochastic reduced‑order models (ROMs),能够在广泛的参数和外部强迫范围内预测复杂动力系统的行为。通过将 amortized stochastic variational inference 与对 Markov Gaussian processes 的巧妙重新参数化相结合,作者实现了快速且具不确定性意识的预测,而无需反复求解昂贵的高保真模拟。
关键贡献
- 用于 ROM 的摊销随机变分推断 – 在一次端到端训练过程中学习概率编码器/解码器以及潜在随机微分方程(SDE)。
- 用于马尔可夫高斯过程的再参数化技巧 – 消除训练期间对昂贵前向求解器的需求,使计算成本与数据集规模和系统刚度无关。
- 参数空间泛化 – 学习得到的模型能够外推到未见过的系统参数和强迫函数组合。
- 内置不确定性量化 – 随机潜在动力学自然提供预测方差,有助于风险感知的决策。
- 可选的物理信息先验 – 当已知物理约束可用时,框架可以将其纳入,提高数据利用效率。
- 在三个具有挑战性的基准上进行实证验证 – 展示出相较于现有 ROM 技术更高的精度和数量级的加速。
方法论
- 数据收集 – 高保真模拟在有限的参数取值和强迫历史下运行,生成状态轨迹。
- 概率自编码器 – 神经编码器将每个高维状态快照压缩为低维潜在向量;解码器从潜在代码重建完整状态。
- 潜在随机动力学 – 假设潜在向量按照连续时间 SDE 演化,其漂移和扩散函数由神经网络参数化。
- 摊销推断 – 作者对马尔可夫高斯过程进行再参数化,将随机动力学转化为可微的“一次采样”操作,而不是为每个训练样本求解 SDE。
- 联合训练 – 通过最大化变分下界(证据下界,ELBO),共同优化编码器、解码器和 SDE 网络。这既得到紧凑的 ROM,又提供校准的不确定性估计。
- 物理信息先验(可选) – 已知的守恒律或对称性可以作为漂移/扩散网络的先验,在数据稀缺时引导学习。
结果与发现
| 基准测试 | 传统 ROM(确定性) | 提议的随机 ROM | 加速比 |
|---|---|---|---|
| 刚度可变的非线性振荡器 | 对未见参数的误差高 | < 5 % 相对误差,方差可靠 | ≈ 30× |
| 圆柱后流体(雷诺数变化) | 对样本外雷诺数发散 | 提升/阻力预测准确,置信区间已校准 | ≈ 25× |
| 随时间变化源的热扩散 | 预测过度平滑 | 捕捉瞬态峰值,随源变化不确定性增大 | ≈ 40× |
- 泛化能力: 学习到的 SDE 能够正确插值,甚至外推到训练中未出现的参数区间。
- 不确定性校准: 在训练数据稀疏的区域,预测方差增大,匹配经验误差。
- 计算效率: 训练时间随潜在维度线性增长,而非随高保真快照数量增长;对所有三种测试案例的推断均为实时。
Practical Implications
- Rapid prototyping of simulation‑based products – engineers can replace costly CFD or structural solvers with a lightweight stochastic ROM that still provides confidence bounds.
- Robust control and optimization – controllers can incorporate predictive uncertainty directly, leading to safer, more reliable decisions under varying operating conditions.
- Digital twins for smart manufacturing – a stochastic ROM can continuously update predictions as new sensor data arrive, flagging anomalies when uncertainty spikes.
- Resource‑constrained environments – edge devices (e.g., autonomous drones) can run the latent SDE in milliseconds, enabling on‑board forecasting without cloud dependence.
- Facilitates data‑driven discovery – the amortized inference pipeline can be reused across different physical domains, reducing the time needed to build bespoke ROMs.
限制与未来工作
- 训练数据质量: 该方法仍然依赖于具有代表性的高保真模拟集合;参数空间中的严重空缺会降低性能。
- 潜在维度选择: 选择合适的潜在维度仍然是经验性的;维度过小会丢失动力学信息,过大则影响可解释性。
- 对极高维场的可扩展性: 虽然该方法将计算成本与数据集规模解耦,但对于拥有数百万自由度的三维湍流流场,编码器/解码器网络可能成为瓶颈。
- 作者提出的未来方向 包括:
- 自适应采样策略,以在不确定性高的区域自动丰富训练数据。
- 将方法扩展到非高斯潜在过程(例如 Lévy 飞行),以处理重尾动力学。
- 与物理信息神经网络更紧密集成,以更严格地强制守恒定律。
作者
- Andrew F. Ilersich
- Kevin Course
- Prasanth B. Nair
论文信息
- arXiv ID: 2601.10690v1
- 类别: cs.LG
- 发布于: 2026年1月15日
- PDF: 下载 PDF