[论文] FastMPS：重新审视大规模矩阵乘积态采样中的数据并行

发布: 1个月前 (2025年12月23日 GMT+8 13:33)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20064v1

概述

Fast‑MPS 通过将数据并行与一种沿键维度划分工作的全新“张量并行”层相结合，重新激活了对大规模矩阵乘积态（MPS）进行采样的数据并行。作者展示了这种两级并行能够打破以往 MPS 模拟器的内存和 I/O 瓶颈，使得能够进行前所未有的大规模量子采样实验（8 k+ 站点，χ = 10⁴），并实现超过 10× 的加速。

关键贡献

Multi‑level parallel framework: 将经典的数据并行（跨独立样本）与一种新颖的张量并行相结合，后者在 MPS 键合维度上分配繁重的张量收缩。
Memory‑ and I/O‑aware design: 引入即时压缩和通信/计算重叠，以保持每个进程的内存占用低并隐藏数据传输延迟。
Scalable implementation: 基于 MPI + NCCL（或类似的高性能集合通信）构建，可在数千个 CPU/GPU 进程上高效运行。
Benchmark on Gaussian Boson Sampling (GBS): 相比最先进的模拟器实现了超过 10 倍的加速，并将规模推进到 8,176 个格点，χ = 10⁴。
Open‑source reference: 作者发布了一个原型库，可嵌入现有的张量网络工具包。

方法论

问题分解
- 数据并行：每个 MPI rank 独立生成总 MPS 样本的一个子集。
- 张量并行：在同一 rank 内，MPS 张量在第二维度的进程之间拆分，这些进程共同持有键索引（χ 维度）的不同切片。
压缩张量存储
- 在分配之前，对每个张量进行量化/压缩（例如使用低秩近似或块稀疏编码），以降低内存占用且不牺牲采样保真度。
通信与计算的重叠
- 当张量的一个切片正在收缩时，下一个切片从远程 rank 流入。此流水线通过非阻塞 MPI 调用和 CUDA 流（在使用 GPU 时）进行调度。
集合收缩引擎
- 自定义的 all‑reduce / all‑gather 模式聚合张量并行组的部分结果，然后继续处理 MPS 链中的下一个位置。
采样循环
- 算法遍历 MPS 位点，执行一系列条件概率计算（通过张量收缩）来抽取每个物理索引，完全同标准 MPS 采样，只是现在实现了完全并行化。

整体工作流可视化为一个二维进程网格：行负责不同的样本，列负责同一样本的不同 χ 切片。

结果与发现

指标	已有技术（例如 QTensor、Quimb）	Fast‑MPS
加速比	基准 (1×)	>10× 在 1,024‑GPU 集群上
可扩展性	在约 200 个进程后停滞（内存压力）	线性扩展至 4,096 进程
最大问题规模	约 4,000 个站点，χ ≈ 2 × 10³	8,176 个站点，χ = 10⁴
每个进程的内存	约 30 GB（GPU）	< 8 GB（得益于压缩）
I/O 开销	占运行时间的主要部分（>30 %）	< 5 %（已重叠）

作者还展示了采样分布的统计特性（例如 GBS 中的光子数直方图）与精确 MPS 的统计特性在可忽略的误差范围内匹配，证实压缩不会降低科学正确性。

实际意义

量子采样研究：研究人员现在可以模拟更大规模的 GBS 实例，有助于验证近期量子光子设备并对量子优势主张进行基准测试。
张量网络库：Fast‑MPS 的两级并行可以抽象为流行 Python 包（例如 tensornetwork、quimb）的后端，为开发者的任何基于 MPS 的工作流提供即插即用的性能提升。
高性能机器学习：MPS 正在成为序列数据的紧凑模型；Fast‑MPS 使在现有 HPC 集群上对海量数据集进行训练/推理成为可能。
受限内存环境：压缩 + 重叠策略可适用于其他大张量工作负载（例如深度学习模型并行、科学模拟），在 I/O 成为瓶颈的情况下提升效率。
可扩展的云部署：由于该方法依赖标准的 MPI/NCCL 原语，可迁移到基于云的 GPU 农场（AWS、Azure），无需定制硬件，从而实现按需的大规模张量采样即服务。

限制与未来工作

压缩权衡: 虽然作者报告称对采样保真度的影响最小，但激进的压缩可能影响更为细微的量子态属性；仍需进行系统性的误差分析。
硬件异构性: 当前实现假设一个相当均匀的 CPU/GPU 集群；将其扩展到混合精度或异构节点配置可能并非易事。
超出 MPS 的通用性: Fast‑MPS 针对 MPS 的线性链结构进行优化；将相同思路应用于更高维张量网络（如 PEPS、MERA）将需要新的通信模式。
并行布局自动化: 目前在数据并行组和张量并行组之间的最佳划分依赖手动调优；自动调谐器可以使框架更易于使用。

总体而言，Fast‑MPS 为将 MPS 采样扩展到此前难以实现的问题规模提供了实用路径，其设计原则有望影响更广泛的高性能张量计算领域。

作者

Yaojian Chen
Si‑Qiu Gong
Lin Gan
Yanfei Liu
An Yang
Yinuo Wang
Chao‑yang Lu
Guangwen Yang

论文信息

arXiv ID: 2512.20064v1
分类: cs.DC
出版时间: 2025年12月23日
PDF: Download PDF

[论文] FastMPS：重新审视大规模矩阵乘积态采样中的数据并行

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

[Paper] FUSCO：通过变换-通信融合实现高性能分布式数据洗牌

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] BLEST：极其高效的 BFS 使用 Tensor Cores