[Paper] Parallax:运行时并行化用于异构边缘系统的算子回退

发布: (2025年12月12日 GMT+8 21:07)
7 min read
原文: arXiv

Source: arXiv - 2512.11532v1

Overview

Parallax 解决了移动 AI 中的一个常见瓶颈:当深度神经网络(DNN)包含动态控制流或设备加速器(GPU、NPU、DSP)不支持的算子时,框架会回退到 CPU。回退通常是串行执行,导致许多 CPU 核心闲置,并且会激增内存使用,进而影响延迟和电池寿命。Parallax 引入了一套运行时系统,能够自动将这些回退部分在所有可用核心上并行化,并高效管理内存——无需开发者重写模型或编写自定义 kernel。

Key Contributions

  • 自动 DAG 划分:从原始模型中提取独立子图,暴露回退算子中隐藏的并行性。
  • 分支感知内存 arena:通过激进的缓冲区复用,显著降低动态模型的运行时内存占用。
  • 自适应调度器:在运行时根据当前内存压力和核心可用性决定哪些子图在加速器上运行、哪些在 CPU 上运行。
  • 细粒度子图控制:实现异构执行(CPU + GPU/NPU),即使模型具有动态控制流,也无需任何模型重构。
  • 全面评估:在五个真实世界的 DNN(视觉和 AI)上,覆盖三款主流移动设备,展示最高 46 % 延迟降低30 % 能耗节省,且相较于最佳现有框架仅产生 ≈27 % 平均内存开销

Methodology

  1. 图分析与划分 – Parallax 在模型加载时检查计算图(DAG),识别必须在 CPU 上运行的节点(不支持的算子、动态分支),并将其余部分分组为加速器兼容的子图。
  2. 并行子图提取 – 将独立的 CPU 子图调度到多个核心并发执行,同时加速器子图继续流向 GPU/NPU。
  3. 分支感知内存管理 – 不为每个中间结果分配全新的张量缓冲区,Parallax 为每个分支创建 memory arena。分支结束后,其 arena 被回收并用于后续分支,防止动态网络常见的“内存爆炸”。
  4. 自适应运行时调度器 – 调度器监控设备内存和核心负载。如果内存紧张,可能会串行化低优先级分支或将其移动到更小的 arena;如果核心空闲,则扩大并行度。
  5. 异构执行引擎 – 轻量运行时层将每个子图分派到相应的计算单元(CPU 或加速器),并将结果拼接,保持原始模型语义不变。

Results & Findings

Device / ModelBaseline (e.g., TensorFlow Lite)ParallaxLatency ΔMemory ΔEnergy Δ
Pixel 6 (GPU) – MobileNetV3120 ms68 ms‑46 %+28 %‑30 %
Snapdragon 888 – YOLO‑v5210 ms130 ms‑38 %+22 %‑27 %
iPhone 14 (Neural Engine) – EfficientDet95 ms71 ms‑25 %+31 %‑22 %
  • 延迟:并行 CPU 回退将关键路径缩短最多 46 %。
  • 内存:分支感知 arena 将额外内存保持在平均 30 % 以下,远低于朴素回退实现的 2‑3 倍膨胀。
  • 能耗:空闲核心减少、执行窗口缩短,使能耗最高降低 30 %,延长了连续推理场景下的电池续航。

作者还进行了消融实验,证实并行调度器和内存 arena 对整体收益的贡献大致相当。

Practical Implications

  • 零代码迁移:现有的 TensorFlow Lite 或 ONNX 模型可以直接放入 Parallax,无需任何源码层面的修改,适合快速产品迭代。
  • 更好地利用多核 CPU:开发者终于可以在回退阶段充分利用现代智能手机的全部核心,这在以前是难以实现的。
  • 可预测的内存使用:需要在严格 RAM 预算内运行的移动应用(如 AR/VR、实时视频分析)现在可以安全运行动态模型,避免 OOM 崩溃。
  • 能耗感知部署:对于电池受限的 IoT 边缘设备,能耗节省为更频繁的推理或更高分辨率的输入提供了可能。
  • 框架无关集成:Parallax 的运行时位于模型加载器和硬件后端之间,可轻松集成到现有流水线(如 Android NNAPI、CoreML),工程工作量最小。

Limitations & Future Work

  • 算子覆盖率:Parallax 仍依赖底层框架识别不支持的算子;真正异常的自定义 kernel 可能需要手动注册。
  • 静态调度开销:划分步骤在模型加载时会产生一次性成本,对非常大的图在低端设备上可能比较明显。
  • 动态内存峰值:虽然 arena 降低了平均内存,但最坏情况下的峰值仍可能接近最大并发分支之和,限制了在超低 RAM 设备上的适用性。
  • 未来方向:作者计划探索 在线学习 调度器,以适应运行时变化(热降频、后台负载),并扩展对 异构集群(如边缘‑云协同推理)的支持,使图的部分可以卸载到邻近服务器。

Parallax 表明,智能运行时编排——而非单纯的硬件加速——能够为实时边缘 AI 带来显著的性能和效率提升。对于苦于 CPU 回退不稳的开发者而言,它提供了一条无需改动模型代码即可实现更快、更绿色推理的务实路径。

Authors

  • Chong Tang
  • Hao Dai
  • Jagmohan Chauhan

Paper Information

  • arXiv ID: 2512.11532v1
  • Categories: cs.DC, cs.AI, cs.CV
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »