[Paper] 边缘 SoC 上稀疏模型的多 DNN 推理
发布: (2026年3月10日 GMT+8 21:16)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.09642v1
概述
边缘设备如今被期望能够同时运行多个深度神经网络(DNN)模型——比如在同一芯片上运行视觉、音频和传感器融合流水线。论文《Multi‑DNN Inference of Sparse Models on Edge SoCs》针对一个实际瓶颈进行研究:现有运行时只能为每个模型挑选单个(或少数)稀疏变体,这迫使在异构加速器上的放置不够优化,导致服务水平目标(SLO)未达成。作者提出了 模型拼接(model stitching)的方法,即在运行时动态重新组合已有稀疏模型的子图,并通过一个名为 SparseLoom 的原型系统进行演示,该系统能够在真实的边缘系统芯片(SoC)上运行。
关键贡献
- 模型拼接概念 – 引入一种轻量级、无需训练的技术,通过复用预剪枝模型池中的子图来创建新的稀疏模型变体。
- SparseLoom 运行时 – 一个端到端系统,将模型拼接与了解异构计算单元(CPU、GPU、DSP、NPU)的调度器集成。
- 基于 SLO 的分配 – 将多 DNN 调度扩展为考虑每个任务的延迟预算,显著降低截止期限错过率。
- 全面评估 – 显示相较于最佳可用的多 DNN 推理框架,SLO 违规率降低 74 %,吞吐量提升 2.31×,平均内存节省 28 %。
- 开源制品 – 作者发布代码和基准套件,支持可重复性并促进社区快速采用。
方法论
- 稀疏模型池 – 作者首先收集每个 DNN 的稀疏化版本(例如,70 % 和 90 % 权重剪枝)。
- 图划分 – 将每个模型拆分为逻辑子图(层或块),这些子图可以独立执行。
- 拼接引擎 – 在运行时,SparseLoom 从不同稀疏度级别中选择兼容的子图,组装成满足目标内存/延迟预算的 拼接模型。由于子图共享相同的架构和权重布局,无需额外的训练或微调。
- 异构调度器 – 将拼接模型映射到 SoC 的异构计算单元上,使用考虑加速器特定稀疏支持、内存带宽和每任务 SLO 的成本模型。
- 评估平台 – 实验在流行的边缘 SoC(如 Qualcomm Snapdragon、NVIDIA Jetson)上进行,使用真实的多 DNN 工作负载(目标检测 + 语音识别 + 姿态估计)。基线包括基于 TVM 的多 DNN 运行时和手工制作的静态模型选择。
结果与发现
| 指标 | SparseLoom 与 基线 |
|---|---|
| SLO 违规率 | ↓ 74 % (max) |
| 吞吐量(推理次数/秒) | ↑ 2.31× |
| 内存占用 | ↓ 28 % on average |
| 每任务延迟 | Meets 95 % of SLOs vs. 68 % for baseline |
| 调度器开销 | < 5 ms per scheduling decision (negligible) |
收益主要来源于两个因素:(1) 能够为每个子图挑选 恰当 的稀疏度水平,避免了静态模型的“一刀切”惩罚;(2) 更好的加速器利用率,因为调度器可以将更密集的子图放在更快的单元上,而将超稀疏部分保留在受内存限制的核心上。
Practical Implications
- Dynamic Edge Pipelines – 开发者现在可以构建模块化推理管道(例如,添加新的传感器模型),而无需手动重新剪枝或重新训练每个变体。
- Reduced Firmware Footprint – 由于拼接模型是由现有二进制文件组装而成,固件体积保持较小——这对受限设备的 OTA 更新至关重要。
- Improved QoE for Real‑Time Apps – 更低的 SLO 违规直接转化为更流畅的 AR/VR 体验、更可靠的语音助手以及更安全的自动驾驶感知系统。
- Cost‑Effective Hardware Utilisation – 制造商可以只发布单一的 SoC SKU,并通过 SparseLoom 的调度器满足多样化工作负载需求,从而推迟对更高端加速器的需求。
- Easier Portability – 开源运行时抽象了厂商特定的 SDK,使得将多 DNN 工作负载从 Snapdragon 移植到 Edge‑TPU 或 Jetson 平台更加简便。
限制与未来工作
- 拼接粒度 – 当前实现以块级别进行拼接;更细粒度的层级拼接可能带来额外的节省,但需要更复杂的依赖追踪。
- 稀疏性兼容性 – 并非所有稀疏模式(例如非结构化与结构化)在加速器上都得到同等支持;当硬件支持不足时,调度器可能回退到更密集的子图。
- 静态模型池 – 预剪枝模型池需要事先进行策划;该池的自动生成(例如通过神经架构搜索)留待未来研究。
- 能耗测量 – 虽然已经测量了吞吐量和内存,但对电池供电设备的详细功耗效率分析仍在进行中。
作者计划探索能够在设备上生成新稀疏水平的自适应剪枝,并将 SparseLoom 扩展以支持基于 Transformer 的模型,这类模型在边缘 AI 中日益普遍。
作者
- Jiawei Luo
- Di Wu
- Simon Dobson
- Blesson Varghese
论文信息
- arXiv ID: 2603.09642v1
- 分类: cs.DC, cs.LG, cs.PF
- 出版日期: 2026年3月10日
- PDF: 下载 PDF