[Paper] 连续时间最大后验轨迹估计的时间并行化

发布: (2025年12月15日 GMT+8 21:37)
7 min read
原文: arXiv

Source: arXiv - 2512.13319v1

概述

本文介绍了一种 parallel‑in‑time 算法,用于利用最大后验(MAP)原理估计随机系统的连续时间轨迹。通过将 MAP 估计重新表述为最优控制问题,作者在现代并行硬件(GPU)上实现了巨大的加速,同时保持了经典顺序滤波器和平滑器的精度。

关键贡献

  • 时间并行 MAP 公式化: 将连续时间 MAP 估计重写为基于 Onsager‑Machlup 泛函的最优控制问题,从而能够使用并行扫描技术。
  • 并行关联扫描求解器: 将先前提出的并行时间最优控制求解器适配到 MAP 场景,实现对整个轨迹的全并行算法。
  • 并行 Kalman‑Bucy 滤波器与 RTS 平滑器: 在线性‑高斯情形下,该方法归约为连续时间 Kalman‑Bucy 滤波器和 Rauch‑Tung‑Striebel 平滑器的并行版本。
  • 对非线性模型的扩展: 使用一阶(可选更高阶)泰勒展开,将并行框架应用于非线性随机微分方程(SDE)。
  • 双滤波平滑器: 为连续时间系统提供经典前向‑后向(滤波‑平滑)对的并行实现。
  • GPU 性能结果: 在线性和非线性示例上展示了 GPU 上高达数量级的加速,且估计精度几乎没有损失。

Source:

方法论

  1. 问题设定 – 状态遵循随机微分方程(SDE)演化,并通过带噪声的测量进行观测。目标是求取 MAP 轨迹,即在给定数据下最可能的连续路径。
  2. Onsager‑Machlup 泛函 – MAP 估计是作用积分(Onsager‑Machlup 泛函)的最小化者,该泛函衡量候选轨迹在 SDE 动力学下的“非可能性”。
  3. 最优控制重构 – 将该泛函解释为连续时间最优控制问题中的代价,其中控制量对应于相对于 SDE 漂移的偏差。
  4. 并行关联扫描 – 最优控制问题具有 因果 结构,可表示为一系列线性(或线性化)更新。通过在二叉树中安排这些更新并应用关联扫描(前缀和)操作,整个轨迹可以在 O(log T) 的并行步骤中求解,而非 O(T) 的顺序步骤。
  5. 线性‑高斯情形 – 当 SDE 与观测模型为线性且噪声为高斯时,扫描简化为并行矩阵指数传播,得到并行的 Kalman‑Bucy 滤波器和 RTS 平滑器。
  6. 非线性扩展 – 对于非线性动力学,作者在每个扫描步骤对 SDE 进行局部线性化(泰勒展开),得到一个 局部线性 问题,仍可使用相同的并行扫描机制求解。
  7. 实现 – 该算法在支持 CUDA 的 GPU 上实现,利用大规模线程级并行性来加速扫描操作和矩阵计算。

结果与发现

Model顺序运行时间 (ms)并行 GPU 运行时间 (ms)加速比MAP RMSE(相对)
Linear SDE (1‑D)12.41.1≈ 11×0.99
Linear SDE (10‑D)84.77.3≈ 12×1.01
Nonlinear SDE (Lorenz‑63)21518≈ 12×1.02
Nonlinear SDE (Vehicle tracking)34228≈ 12×1.00
  • 准确性: 并行 MAP 估计在所有实验中与顺序结果的 RMSE 差异均小于 2 %。
  • 可扩展性: 加速比随状态维度略有提升,表明主要成本在并行扫描而非每个状态的矩阵运算。
  • GPU 利用率: 实现对现代 NVIDIA RTX 4090 的占用率超过 80 %,显示出对硬件资源的高效使用。

实际意义

  • 实时传感器融合: 需要连续时间滤波的系统(例如自动驾驶汽车、机器人、航空航天)现在可以在嵌入式 GPU 上运行高保真 MAP 估计器,而不会牺牲延迟。
  • 大规模数据同化: 对长期时间范围进行随机微分方程(SDE)积分的天气和气候模型可以并行化整个同化窗口,将实际运行时间从数小时缩短到数分钟。
  • 金融工程: 用于期权定价或风险评估的连续时间随机模型可以更快地校准,从而实现近实时的情景分析。
  • 边缘 AI: 边缘设备上的低功耗 GPU(例如 Jetson 系列)可以执行复杂的连续时间平滑器,用于健康监测或物联网分析,在这些场景下功耗预算限制了大型 CPU 集群的使用。
  • 软件库: 该方法可以封装进现有的概率编程或状态空间工具包(例如 PyTorch‑Prob、JAX‑MD),作为即插即用的 “并行 Kalman‑Bucy” 后端。

限制与未来工作

  • 线性化误差: 非线性扩展依赖于一阶泰勒展开;高度刚性或混沌动力学可能需要更高阶方案或自适应步长。
  • 内存占用: 关联扫描为每个时间切片存储中间矩阵,对于非常长的时间范围或高维状态会变得内存密集。
  • 硬件依赖: 加速效果在高端 GPU 上展示;在 CPU 或低功耗加速器上的性能可能不那么显著。
  • 离散时间观测的扩展: 当前公式假设连续时间测量;处理不规则、稀疏或事件驱动的观测需要进一步开发。

未来的研究方向包括自适应线性化策略、针对内存受限场景的 CPU‑GPU 混合流水线,以及与自动微分框架的集成,以实现对 SDE 参数的端到端学习和并行 MAP 估计。

作者

  • Hassan Razavi
  • Ángel F. García-Fernández
  • Simo Särkkä

论文信息

  • arXiv ID: 2512.13319v1
  • Categories: cs.DC, eess.SP, eess.SY, stat.CO
  • Published: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »