[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用

发布: 3天前 (2026年2月13日 GMT+8 02:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12267v1

概述

本文介绍了 Flow‑Guided Neural Operator (FGNO)，一种自监督学习框架，将对时间序列施加的腐蚀程度视为可学习的“流”，而非固定的掩码比例。通过将算子学习与流匹配技术相结合，FGNO 能够从单一模型中提取多尺度表示，并在多个生物医学时间序列基准上实现了最新的性能。

关键贡献

动态腐蚀作为学习信号 – 用连续流动逐渐添加噪声取代静态掩码比例，为模型提供更丰富的监督信号。
基于算子的架构 – 利用神经算子在函数空间学习映射，使模型能够通过短时傅里叶变换（STFT）处理不同的时间分辨率。
层次特征提取 – 同时利用多个网络层以及多个流动时间，生成从低层模式到高层全局上下文的表征。
干净输入推理 – 虽然训练使用噪声输入，但表征是从原始数据中提取的，消除推理时的随机噪声，提升下游任务精度。
强劲的实证提升 – 在神经信号解码上提升最高 35 % AUROC，在皮肤温度预测上降低 16 % RMSE，以及在低数据条件下的睡眠阶段分类中提升 >20 % 的准确率/宏观 F1。

方法论

使用 STFT 进行预处理 – 将每个原始时间序列转换为时频图，将不同的采样率和分辨率归一化为统一的函数表示。
流引导的腐蚀 – 一个 flow 参数 (t \in [0,1]) 控制高斯噪声混入输入的程度。模型不是看到单一掩码，而是一系列连续的腐蚀版本，学习将干净信号作为 (t) 的函数进行预测。
神经算子核心 – 主干是神经算子（例如 Fourier Neural Operator），它学习从腐蚀的函数输入到整个流上的干净输出的映射。由于算子作用于函数而非固定大小的向量，同一网络可以处理不同长度和采样频率的序列。
多层次表示读取 – 在训练期间，存储来自多个层和多个 flow 时间的隐藏状态。推理时，下游任务可以挑选最合适的组合（例如，短期模式使用浅层，长期趋势使用深层）。
自监督目标 – 在所有 flow 时间上应用简单的重构损失（例如，预测的 STFT 与干净 STFT 之间的 MSE），促使模型学习从噪声到干净表示的平滑轨迹。

结果与发现

数据集（领域）	指标	基线	FGNO	相对提升
BrainTreeBank（神经信号）	AUROC	0.71	0.96	+35 %
DREAMT（皮肤温度）	RMSE	0.84 °C	0.71 °C	–16 %
SleepEDF（睡眠分期）	Accuracy / Macro‑F1	0.68 / 0.62	0.84 / 0.78	+20 %+

当仅有少量标记数据可用时（例如，仅占完整训练集的 5 %），提升尤为显著。
消融实验表明：(i) 使用静态掩码会导致性能下降约 10 %；(ii) 丢弃流动维度会使 AUROC 降低约 8 %；(iii) 在测试时从噪声输入中提取表征会使准确率下降约 4 %。
基于算子的方法在不规则采样和缺失值方面表现出鲁棒性，这在生物医学记录中很常见。

实际意义

即插即用的预训练 – 开发者可以在任意未标记的传感器流（物联网、可穿戴设备、工业日志）上预训练 FGNO，并微调轻量级头部用于分类、回归或异常检测。
降低标注成本 – 由于 FGNO 在数据稀缺的情况下仍能表现出色，团队可以用更少的标注样本实现高性能，加速健康技术和预测性维护解决方案的产品周期。
统一模型适用于异构时间尺度 – STFT 加算子流水线意味着同一模型可以在无需重新设计的情况下处理高频 ECG、中频温度或低频环境数据。
确定性推理 – 干净的输入表示提取消除了随机性，简化了在对延迟或安全性要求严格的系统（例如床旁监测）中的部署。
具备边缘部署潜力 – 底层神经算子可以进行蒸馏或量化，使 FGNO 成为在低功耗微控制器上进行设备端推理的候选方案。

限制与未来工作

计算开销 – 训练需要为每个样本生成多个受损版本并执行 STFT，对非常长的序列来说可能会占用大量内存。
流调度的领域特异性 – 当前基于高斯的流可能并不适用于高度非高斯的噪声模式（例如，突发的网络流量）。
在生物医学之外的评估有限 – 虽然在生理数据上的结果令人印象深刻，但仍需在更广泛的基准（金融、语音、物联网）上进行验证，以确认其通用性。
作者提出的未来方向 包括：
1. 学习流动动力学本身（而不是固定高斯调度）。
2. 融入注意力式 token 混合，以更好地捕获长程依赖。
3. 探索多模态扩展，使算子能够联合处理同步的传感器流。

作者

Duy Nguyen
Jiachen Yao
Jiayun Wang
Julius Berner
Animashree Anandkumar

论文信息

arXiv ID: 2602.12267v1
Categories: cs.LG
Published: 2026年2月12日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

通用机器人长期以来的愿景依赖于它们理解并执行自然语言指令的能力。Vision‑Language‑Action（VLA）……

[Paper] UniT：统一多模态链式思考测试时扩展

统一模型能够在单一架构中同时处理多模态理解和生成，但它们通常在一次前向传播中完成，而不进行迭代……

[Paper] MonarchRT：高效注意力用于实时视频生成

使用 Diffusion Transformers 进行实时视频生成时，受到 3D self-attention 二次成本的瓶颈限制，尤其在实时模式下……

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型

Diffusion large language models (DLLMs) 有潜力通过并行解码多个 token 来实现快速文本生成。然而，在实践中，它们的 i...