[Paper] 时空物理系统的表征学习

发布: 1个月前 (2026年3月14日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.13227v1

概述

本文研究了现代自监督学习（SSL）技术在捕捉时空系统底层物理方面的表现——比如流体流动、天气模式或粒子模拟。作者并不局限于常见的“预测下一个视频帧”任务，而是进一步探讨所学习的表征是否对下游科学问题有用，例如估计隐藏的物理参数。

转变评估范式： 将下游科学任务（参数估计）引入，作为比原始下一帧预测更有意义的表征质量基准。
全面比较： 在多个模拟物理数据集上，实证评估一系列通用自监督学习方法（如 SimCLR、MoCo）与物理特定架构（如 JEPAs）的表现。
潜在空间优势： 表明在潜在嵌入空间中学习的方法在下游任务上始终优于像素级预测模型。
开源工具包： 发布了文档完善的代码库（github.com/helenqu/physical-representation-learning），可复现实验并可扩展到新的物理领域。

数据集： 作者使用一组合成时空模拟（例如 Navier‑Stokes 流体流动、波传播、粒子动力学），其中已知真实的物理参数（粘度、波速、力场）。
自监督预训练： 模型首先在没有标签的情况下进行训练，使用以下任一方式：
- 像素级预测目标（直接预测下一帧）。
- 潜在空间目标（联合嵌入预测架构、对比学习、掩码自编码）。
下游探测： 预训练后，在冻结的嵌入上训练一个轻量线性探针（或小型 MLP）来预测隐藏的物理参数。性能通过均方误差或分类准确率衡量，取决于参数类型。
基线： 经典的下一帧预测网络（例如 ConvLSTM、视频扩散模型）作为基线，用以说明原始预测质量与表征有用性之间的差距。

更快的科学工作流: 研究人员可以在大量未标记的仿真数据上预训练一个通用编码器，然后在新实验中复用它快速估计隐藏参数，从而减少昂贵的仿真运行。
工程工具的模型选择: 在构建机器学习增强的仿真器（例如用于 CFD 或气候建模）时，关注潜在空间的自监督学习可能比追求像素级完美预测更能产生更稳健、可解释的组件。
向真实世界数据的迁移: 由于评估的自监督学习方法并不依赖于特定的物理引擎，同样的编码器可以在真实传感器流（例如卫星影像、医学影像）上进行微调，以在无需大量标注数据的情况下提取物理描述符。
降低计算预算: 潜在空间模型通常比完整的视频预测网络更轻量，因而在边缘部署（例如无人机或自动驾驶车辆的机载诊断）中具有吸引力。

总体而言，该工作表明，构建用于物理仿真的 ML 工具的开发者应考虑自监督 latent‑space 学习，它是比传统的下一帧预测模型更高效且更符合物理真实性的替代方案。