[Paper] pMSz:一种用于在有损压缩中校正极值和 Morse Smale 分割的分布式并行算法

发布: (2026年1月5日 GMT+8 12:45)
7 min read
原文: arXiv

Source: arXiv - 2601.01787v1

(请提供您希望翻译的具体文本内容,我将按照要求将其译成简体中文。)

概述

有损压缩是缩减大规模科学数据集的首选技术,但不可避免的近似会破坏下游分析所依赖的细微拓扑特征。本文介绍了 pMSz,一种分布式内存、GPU 加速的算法,能够在压缩后恢复 分段线性 Morse‑Smale 分割(PLMSS)的正确性,并且可扩展到数百个 GPU,开销极小。

关键贡献

  • 分布式 PLMSS 校正:将单 GPU 的 MSz 方法扩展到在多个节点上高效运行,实现对拍级数据的校正。
  • 轻通信积分路径处理:用一种保留最陡上升/下降方向的策略取代显式积分路径计算,大幅降低进程间通信流量。
  • 宽松同步方案:引入轻量级协调协议,在保持正确性的同时避免昂贵的全局屏障。
  • 高并行效率:在 Perlmutter 超级计算机上使用多达 128 块 GPU,对真实科学数据集展示了超过 90 % 的扩展效率。
  • 存储影响可忽略:仅向压缩负载中添加极少量的辅助数据(方向场)。

方法论

  1. Problem formulation – 在有损压缩后,标量场的临界点(最小值/最大值)以及相关的 Morse‑Smale 分割可能变得不一致。目标是调整该场,使每个体素的最陡上升和下降路径都遵循与原始未压缩数据相同的“积分路径”。
  2. Simplified direction preservation – 与其追踪完整的积分路径(这会要求每个 GPU 交换长链的体素),pMSz 为每个网格点记录局部的最陡上升和最陡下降邻居索引。这些方向场紧凑,可批量传输,所需消息大幅减少。
  3. Distributed correction loop – 每个 GPU 在本地通过遵循存储的方向直到到达临界点来更新其子域,并在此过程中即时校正标量值。当路径跨越域边界时,仅交换方向信息(而不是整条路径)。
  4. Relaxed synchronization – 该算法允许 GPU 异步执行,仅在需要边界方向数据一致性的明确定义检查点进行同步。相比严格的批同步模型,这可减少空闲时间。
  5. Implementation details – 基于 CUDA 实现节点内部并行,使用 MPI 进行节点间通信;在可用时利用 GPU‑direct RDMA 进一步降低延迟。

结果与发现

数据集(大小)GPU相对于单 GPU MSz 的加速并行效率校正误差(压缩后)
燃烧(2 TB)6458×91 %< 0.5 % 的原始特征偏差
宇宙学(3.5 TB)128112×93 %< 0.3 %
合成(5 TB)128115×90 %< 0.4 %
  • 可扩展性:在 128 GPU 规模下实现近线性扩展;通信开销保持在总运行时间的 5 % 以下。
  • 准确性:校正后的 PLMSS 在受底层压缩方案约束的误差保证范围内,与真实分割结果保持一致。
  • 内存占用:额外的方向场每体素仅增加约 2 字节,相对于典型的压缩负载而言几乎可以忽略不计。

实际意义

  • In‑situ data reduction: 科学家现在可以在仿真运行期间实时压缩数据,并且确信拓扑分析(例如涡旋检测、特征追踪)以后能够准确恢复,而无需完整的解压‑重新计算过程。

  • Workflow integration: pMSz 可以嵌入已有的使用 GPU 加速压缩库(如 SZ、ZFP)的 HPC 流程中。校正步骤足够快速,可作为可视化或机器学习推理之前的后处理阶段执行。

  • Cost savings: 通过在极大规模下实现可靠的有损压缩,存储和 I/O 成本大幅下降,同时保留下游任务(如不确定性量化或模型验证)所需的科学保真度。

  • Broader applicability: 任何依赖拓扑不变量的领域——计算流体动力学、气候建模、医学成像——都可以采用 pMSz 来保护关键特征免受压缩伪影的影响。

限制与未来工作

  • 拓扑范围:当前实现专注于标量场的 Morse‑Smale 分割;将其扩展到向量场拓扑(例如速度的临界点)仍是未解决的问题。
  • 硬件依赖:性能提升假设使用配备高速互连的现代 GPU 集群;在仅 CPU 或较旧 GPU 系统上,通信节省可能不那么显著。
  • 动态数据集:该算法处理静态快照;若要处理随时间变化的数据流,需要对方向场进行增量更新,这是作者计划探索的方向。
  • 对极端压缩比的鲁棒性:虽然该方法能容忍常见的有损误差,但作者指出,在非常激进的压缩(例如 > 100 倍)下,最陡方向场本身可能变得噪声较大,从而限制校正质量。未来工作将基于局部误差估计研究方向数据的自适应细化。

作者

  • Yuxiao Li
  • Mingze Xia
  • Xin Liang
  • Bei Wang
  • Robert Underwood
  • Sheng Di
  • Hemant Sharma
  • Dishant Beniwal
  • Franck Cappello
  • Hanqi Guo

论文信息

  • arXiv ID: 2601.01787v1
  • 分类: cs.DC
  • 出版时间: 2026年1月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »