[Paper] 连续时间最大后验轨迹估计的时间并行化

发布: 3天前 (2025年12月15日 GMT+8 21:37)

7 min read

原文: arXiv

Source: arXiv - 2512.13319v1

概述

本文介绍了一种 parallel‑in‑time 算法，用于利用最大后验（MAP）原理估计随机系统的连续时间轨迹。通过将 MAP 估计重新表述为最优控制问题，作者在现代并行硬件（GPU）上实现了巨大的加速，同时保持了经典顺序滤波器和平滑器的精度。

时间并行 MAP 公式化： 将连续时间 MAP 估计重写为基于 Onsager‑Machlup 泛函的最优控制问题，从而能够使用并行扫描技术。
并行关联扫描求解器： 将先前提出的并行时间最优控制求解器适配到 MAP 场景，实现对整个轨迹的全并行算法。
并行 Kalman‑Bucy 滤波器与 RTS 平滑器： 在线性‑高斯情形下，该方法归约为连续时间 Kalman‑Bucy 滤波器和 Rauch‑Tung‑Striebel 平滑器的并行版本。
对非线性模型的扩展： 使用一阶（可选更高阶）泰勒展开，将并行框架应用于非线性随机微分方程（SDE）。
双滤波平滑器： 为连续时间系统提供经典前向‑后向（滤波‑平滑）对的并行实现。
GPU 性能结果： 在线性和非线性示例上展示了 GPU 上高达数量级的加速，且估计精度几乎没有损失。

Source: …

问题设定 – 状态遵循随机微分方程（SDE）演化，并通过带噪声的测量进行观测。目标是求取 MAP 轨迹，即在给定数据下最可能的连续路径。
Onsager‑Machlup 泛函 – MAP 估计是作用积分（Onsager‑Machlup 泛函）的最小化者，该泛函衡量候选轨迹在 SDE 动力学下的“非可能性”。
最优控制重构 – 将该泛函解释为连续时间最优控制问题中的代价，其中控制量对应于相对于 SDE 漂移的偏差。
并行关联扫描 – 最优控制问题具有因果结构，可表示为一系列线性（或线性化）更新。通过在二叉树中安排这些更新并应用关联扫描（前缀和）操作，整个轨迹可以在 O(log T) 的并行步骤中求解，而非 O(T) 的顺序步骤。
线性‑高斯情形 – 当 SDE 与观测模型为线性且噪声为高斯时，扫描简化为并行矩阵指数传播，得到并行的 Kalman‑Bucy 滤波器和 RTS 平滑器。
非线性扩展 – 对于非线性动力学，作者在每个扫描步骤对 SDE 进行局部线性化（泰勒展开），得到一个 局部线性 问题，仍可使用相同的并行扫描机制求解。
实现 – 该算法在支持 CUDA 的 GPU 上实现，利用大规模线程级并行性来加速扫描操作和矩阵计算。

Model	顺序运行时间 (ms)	并行 GPU 运行时间 (ms)	加速比	MAP RMSE（相对）
Linear SDE (1‑D)	12.4	1.1	≈ 11×	0.99
Linear SDE (10‑D)	84.7	7.3	≈ 12×	1.01
Nonlinear SDE (Lorenz‑63)	215	18	≈ 12×	1.02
Nonlinear SDE (Vehicle tracking)	342	28	≈ 12×	1.00

实时传感器融合： 需要连续时间滤波的系统（例如自动驾驶汽车、机器人、航空航天）现在可以在嵌入式 GPU 上运行高保真 MAP 估计器，而不会牺牲延迟。
大规模数据同化： 对长期时间范围进行随机微分方程（SDE）积分的天气和气候模型可以并行化整个同化窗口，将实际运行时间从数小时缩短到数分钟。
金融工程： 用于期权定价或风险评估的连续时间随机模型可以更快地校准，从而实现近实时的情景分析。
边缘 AI： 边缘设备上的低功耗 GPU（例如 Jetson 系列）可以执行复杂的连续时间平滑器，用于健康监测或物联网分析，在这些场景下功耗预算限制了大型 CPU 集群的使用。
软件库： 该方法可以封装进现有的概率编程或状态空间工具包（例如 PyTorch‑Prob、JAX‑MD），作为即插即用的 “并行 Kalman‑Bucy” 后端。

未来的研究方向包括自适应线性化策略、针对内存受限场景的 CPU‑GPU 混合流水线，以及与自动微分框架的集成，以实现对 SDE 参数的端到端学习和并行 MAP 估计。