[Paper] PASTA：面向加速器的模块化程序分析工具框架

发布: 3天前 (2026年2月26日 GMT+8 00:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.22103v1

（请提供您希望翻译的具体文本内容，我将为您进行简体中文翻译。）

概述

现代软件越来越多地运行在专用加速器上，例如 GPU、TPU 和定制 AI 芯片。分析这些工作负载的性能异常困难，因为每个厂商都提供各自的低层分析 API，而深度学习框架（TensorFlow、PyTorch 等）的执行模型也大相径庭。论文 “PASTA: A Modular Program Analysis Tool Framework for Accelerators” 介绍了一种统一的、低开销的框架，使开发者和研究人员能够快速构建自定义分析工具，而无需与厂商特定的细节纠缠。

关键贡献

统一抽象层，覆盖异构的分析接口（NVIDIA、AMD 等）以及流行的深度学习运行时。
模块化架构，将数据收集、事件处理和用户自定义分析分离，实现新工具的快速原型开发。
GPU 加速后端，显著降低测量开销（比传统基于 CPU 的分析器快至 13 000 倍）。
基于 PASTA 构建的两个具体工具：
1. 一个深度学习工作负载特征分析器，提取层级计算/内存模式。
2. 一个统一虚拟内存（UVM）优化助手，提供分页策略调优建议。
广泛评估，在一套主流 DL 模型（ResNet、BERT、GPT‑2 等）上进行，涵盖单 GPU 与多 GPU 配置，支持 NVIDIA 与 AMD 硬件。

方法论

PASTA遵循三层流水线：

Instrumentation Layer – 薄适配器包装每个供应商的分析 API（例如，NVIDIA CUPTI，AMD ROCm），并公开通用事件流（内核启动、内存拷贝、同步点）。
Data‑Processing Layer – 用 CUDA/HIP 编写的轻量级运行时在 GPU 本身上聚合原始事件，执行时间戳对齐、事件关联和统计汇总等任务。
Analysis Plug‑in Layer – 开发者使用 C++ 或 Python 实现插件，通过简单的 SDK 消费处理后的事件流。SDK 提供窗口聚合、直方图和可视化等实用工具。

由于繁重的工作（事件合并、过滤）在加速器上完成，框架每个内核仅产生微秒级的开销，不同于传统的 CPU 端分析器需要暂停应用以拉取数据。

结果与发现

开销降低： 在微基准测试中，PASTA 的 GPU 支持收集器增加的运行时开销不到 0.02 %，而 Nsight Systems 或 ROCm‑Profiler 等工具的开销为 10–30 %。
数据检索加速： 作者报告称，由于数据在分析阶段之前始终停留在 GPU 内存中，提取每个 kernel 指标的速度提升高达 1.3 × 10⁴×。
准确性： 事件时间戳与硬件计数器的匹配误差在 ±0.5 µs 以内，确认抽象层并未牺牲精度。
工具演示：
- 工作负载特征分析器发现 BERT 的注意力层在 AMD GPU 上受内存限制，经过 kernel 融合后实现了 12 % 的加速。
- UVM 优化器在 GPT‑2 的多 GPU 训练运行中将页面错误停顿降低了 27 %，从而整体训练时间缩短了 5 %。

实际意义

更快的迭代（针对性能工程师）： 团队可以在数小时内而非数天内原型化自定义分析（例如，检测跨 GPU 的 kernel launch 不平衡），这得益于插件 SDK。
降低大规模分析的成本： 由于 PASTA 的开销可以忽略不计，它可以在生产级训练流水线中保持开启，提供持续的性能遥测而不会影响吞吐量。
跨厂商可移植性： 单一代码库即可同时对 NVIDIA 和 AMD 硬件进行分析，简化了异构集群的 CI 流程。
启用新型优化： GPU‑resident 数据处理为实时反馈回路打开了大门——例如，基于实时指标的 auto‑tuner 可以在运行时动态调整 batch size 或 kernel launch 参数。

限制与未来工作

仅限 GPU 范围： 虽然设计是可扩展的，但当前适配器仅覆盖 NVIDIA（CUPTI）和 AMD（ROCm）。要扩展到 TPU、FPGA 或新兴 AI 加速器，需要额外的底层绑定。
插件学习曲线： 尽管 SDK 轻量，但开发者仍需熟悉 GPU 编程（CUDA/HIP）才能编写高性能插件。
未覆盖静态分析： PASTA 侧重于运行时分析；整合静态代码分析（例如内核源代码检查）可以提供更全面的优化流水线。
未来方向： 作者计划开源该框架，增加对 Intel oneAPI 和新兴 RISC‑V AI 核的支持，并探索在收集的事件流上进行 AI 驱动的异常检测。

作者

Mao Lin
Hyeran Jeon
Keren Zhou

论文信息

arXiv ID: 2602.22103v1
分类: cs.DC, cs.PF
发布时间: 2026年2月25日
PDF: 下载 PDF

[Paper] PASTA：面向加速器的模块化程序分析工具框架

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] STELLAR：存储调优引擎利用 LLM 自主推理实现高性能并行文件系统

[Paper] 工作负载浮力：通过识别共享资源瓶颈让 Apps 保持漂浮

[Paper] 混合共识与量子Sybil抗性

[Paper] LLMTailor：一种层级式定制工具，用于大语言模型的高效检查点