[Paper] 并行二次 Selected Inversion 在量子输运模拟中的应用

发布: (2026年1月8日 GMT+8 21:03)
7 min read
原文: arXiv

Source: arXiv - 2601.04904v1

请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原始的格式、Markdown 语法以及技术术语。

概述

本文提出了一套全新的分布式算法,显著加速了纳米尺度晶体管的量子输运(QT)仿真。通过将经典的递归格林函数(RGF)技术扩展至在多 GPU 上高效运行,作者实现了快速的选定逆选定求解二次矩阵方程——这是非平衡格林函数(NEGF)形式中最耗时的两个步骤。其结果是一个求解器,能够处理比以往方法更大、更复杂的多端口器件几何结构。

关键贡献

  • 为选定逆(SI)和选定二次(SQ)矩阵求解提供基于分布式 RGF 的求解器,可跨多个 GPU 扩展。
  • 支持具有箭头结构的块三对角矩阵,能够模拟多端口晶体管布局。
  • 将 SI 和 SQ 步骤融合为单一流水线,减少数据移动和内存开销。
  • 与最先进的稀疏直接求解器 PARDISO 进行性能比较,在真实的纳米带晶体管案例中,16 GPU 上实现 5.2× 加速。
  • 演示新方法能够模拟的器件长度是 PARDISO 在相同硬件上可处理长度的 16×

方法论

  1. NEGF 背景 – NEGF 形式主义需要格林函数 (G = (E I - H - \Sigma)^{-1}) 以及相关量。仅计算矩阵条目的子集(选定逆)和求解形如 (X = A^{-1} B A^{-T}) 的二次矩阵方程是瓶颈。
  2. 递归格林函数 (RGF) – 传统上,RGF 利用哈密顿量 (H) 的块三对角 (BT) 结构顺序计算格林函数。它对 GPU 非常友好,但仅限于共享内存并行和单 GPU 执行。
  3. 并行扩展 – 作者将 RGF 递归重新组织为 独立子问题,可以分配给不同的 GPU 进程。它们引入了一个 流水线,将通信(MPI)与计算重叠,使选定逆和二次求解能够在设备上并行进行。
  4. 箭头形 BT 矩阵 – 对于多端口器件,BT 矩阵会增加一个额外的“箭头形”块,将所有端口耦合。新算法将该块视为低秩更新,保持原始 RGF 的并行效率。
  5. SI 与 SQ 的融合 – 通过合并这两个阶段,中间结果保留在 GPU 上,削减了昂贵的主机到设备的传输并降低整体内存占用。

结果与发现

指标PARDISO(单 GPU)新分布式 RGF(16 GPU)
模拟器件长度1 µm(基准)16 µm(长 16 倍)
总运行时间(SI+SQ)1.0 ×(基准)0.19 ×(快 5.2 倍)
每个 GPU 的内存使用接近饱和~30 % 低(得益于融合)
强扩展效率~78 %(至 16 GPU)

在真实的纳米带晶体管上进行的实验表明,分布式方法不仅具有良好的可扩展性,而且在问题规模增大时还能超越高度优化的稀疏直接求解器。箭头形扩展成功处理了三端子配置,且未牺牲性能。

实际意义

  • 更大器件仿真 – 工程师现在可以模拟尺寸大一个数量级或更复杂的晶体管(例如,多栅、多端口),而无需采用粗糙近似。
  • 以GPU为中心的工作流 – 这些算法自然适配现有的基于CUDA的高性能计算平台,便于集成到已经利用GPU进行其他物理内核计算的商业TCAD工具中。
  • 缩短求解时间 – 更快的NEGF求解直接缩短纳电子设计周期,使得隧穿FET或二维材料通道等新型器件概念的快速原型制作成为可能。
  • 节能计算 – 通过将大部分数据保留在GPU上并最小化主机与GPU之间的通信,该方法相较于CPU密集型稀疏求解器可降低整体功耗。
  • 开源潜力 – 这些技术基于标准的MPI + CUDA原语,表明社区驱动的实现可以迅速在研究实验室和工业界推广。

限制与未来工作

  • GPU 内存受限 – 尽管融合管线降低了内存压力,但极其庞大的 3‑D 设备网格仍可能超出现有 GPU 的内存容量。
  • 对 BT/Arrowhead 结构的假设 – 该方法依赖底层哈密顿量具有(近似)块三对角形式;若稀疏模式高度不规则,则需要额外的预处理。
  • 超出 16 GPU 的可扩展性 – 论文报告了最高到 16 GPU 的强 scaling;若要扩展到更大的 GPU 集群,还需进一步优化通信模式和负载均衡。
  • 与完整 TCAD 套件的集成 – 未来工作可以聚焦于将求解器与自洽泊松求解器以及电子‑声子散射模型耦合,以实现端到端的器件仿真流水线。

总体而言,该研究将量子输运仿真的前沿推向了下一代纳米电子学所需的规模,为开发者和工程师探索更小晶体管设计提供了一条实用的 GPU 加速路径。

作者

  • Vincent Maillou
  • Matthias Bollhofer
  • Olaf Schenk
  • Alexandros Nikolaos Ziogas
  • Mathieu Luisier

论文信息

  • arXiv ID: 2601.04904v1
  • 类别: cs.DC, cs.PF
  • 出版日期: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »