[Paper] 边缘 SoC 上稀疏模型的多 DNN 推理

发布: (2026年3月10日 GMT+8 21:16)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.09642v1

概述

边缘设备如今被期望能够同时运行多个深度神经网络(DNN)模型——比如在同一芯片上运行视觉、音频和传感器融合流水线。论文《Multi‑DNN Inference of Sparse Models on Edge SoCs》针对一个实际瓶颈进行研究:现有运行时只能为每个模型挑选单个(或少数)稀疏变体,这迫使在异构加速器上的放置不够优化,导致服务水平目标(SLO)未达成。作者提出了 模型拼接(model stitching)的方法,即在运行时动态重新组合已有稀疏模型的子图,并通过一个名为 SparseLoom 的原型系统进行演示,该系统能够在真实的边缘系统芯片(SoC)上运行。

关键贡献

  • 模型拼接概念 – 引入一种轻量级、无需训练的技术,通过复用预剪枝模型池中的子图来创建新的稀疏模型变体。
  • SparseLoom 运行时 – 一个端到端系统,将模型拼接与了解异构计算单元(CPU、GPU、DSP、NPU)的调度器集成。
  • 基于 SLO 的分配 – 将多 DNN 调度扩展为考虑每个任务的延迟预算,显著降低截止期限错过率。
  • 全面评估 – 显示相较于最佳可用的多 DNN 推理框架,SLO 违规率降低 74 %,吞吐量提升 2.31×,平均内存节省 28 %
  • 开源制品 – 作者发布代码和基准套件,支持可重复性并促进社区快速采用。

方法论

  1. 稀疏模型池 – 作者首先收集每个 DNN 的稀疏化版本(例如,70 % 和 90 % 权重剪枝)。
  2. 图划分 – 将每个模型拆分为逻辑子图(层或块),这些子图可以独立执行。
  3. 拼接引擎 – 在运行时,SparseLoom 从不同稀疏度级别中选择兼容的子图,组装成满足目标内存/延迟预算的 拼接模型。由于子图共享相同的架构和权重布局,无需额外的训练或微调。
  4. 异构调度器 – 将拼接模型映射到 SoC 的异构计算单元上,使用考虑加速器特定稀疏支持、内存带宽和每任务 SLO 的成本模型。
  5. 评估平台 – 实验在流行的边缘 SoC(如 Qualcomm Snapdragon、NVIDIA Jetson)上进行,使用真实的多 DNN 工作负载(目标检测 + 语音识别 + 姿态估计)。基线包括基于 TVM 的多 DNN 运行时和手工制作的静态模型选择。

结果与发现

指标SparseLoom 与 基线
SLO 违规率↓ 74 % (max)
吞吐量(推理次数/秒)↑ 2.31×
内存占用↓ 28 % on average
每任务延迟Meets 95 % of SLOs vs. 68 % for baseline
调度器开销< 5 ms per scheduling decision (negligible)

收益主要来源于两个因素:(1) 能够为每个子图挑选 恰当 的稀疏度水平,避免了静态模型的“一刀切”惩罚;(2) 更好的加速器利用率,因为调度器可以将更密集的子图放在更快的单元上,而将超稀疏部分保留在受内存限制的核心上。

Practical Implications

  • Dynamic Edge Pipelines – 开发者现在可以构建模块化推理管道(例如,添加新的传感器模型),而无需手动重新剪枝或重新训练每个变体。
  • Reduced Firmware Footprint – 由于拼接模型是由现有二进制文件组装而成,固件体积保持较小——这对受限设备的 OTA 更新至关重要。
  • Improved QoE for Real‑Time Apps – 更低的 SLO 违规直接转化为更流畅的 AR/VR 体验、更可靠的语音助手以及更安全的自动驾驶感知系统。
  • Cost‑Effective Hardware Utilisation – 制造商可以只发布单一的 SoC SKU,并通过 SparseLoom 的调度器满足多样化工作负载需求,从而推迟对更高端加速器的需求。
  • Easier Portability – 开源运行时抽象了厂商特定的 SDK,使得将多 DNN 工作负载从 Snapdragon 移植到 Edge‑TPU 或 Jetson 平台更加简便。

限制与未来工作

  • 拼接粒度 – 当前实现以块级别进行拼接;更细粒度的层级拼接可能带来额外的节省,但需要更复杂的依赖追踪。
  • 稀疏性兼容性 – 并非所有稀疏模式(例如非结构化与结构化)在加速器上都得到同等支持;当硬件支持不足时,调度器可能回退到更密集的子图。
  • 静态模型池 – 预剪枝模型池需要事先进行策划;该池的自动生成(例如通过神经架构搜索)留待未来研究。
  • 能耗测量 – 虽然已经测量了吞吐量和内存,但对电池供电设备的详细功耗效率分析仍在进行中。

作者计划探索能够在设备上生成新稀疏水平的自适应剪枝,并将 SparseLoom 扩展以支持基于 Transformer 的模型,这类模型在边缘 AI 中日益普遍。

作者

  • Jiawei Luo
  • Di Wu
  • Simon Dobson
  • Blesson Varghese

论文信息

  • arXiv ID: 2603.09642v1
  • 分类: cs.DC, cs.LG, cs.PF
  • 出版日期: 2026年3月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »