[Paper] 边缘 SoC 上稀疏模型的多 DNN 推理

发布: 18小时前 (2026年3月10日 GMT+8 21:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.09642v1

概述

边缘设备如今被期望能够同时运行多个深度神经网络（DNN）模型——比如在同一芯片上运行视觉、音频和传感器融合流水线。论文《Multi‑DNN Inference of Sparse Models on Edge SoCs》针对一个实际瓶颈进行研究：现有运行时只能为每个模型挑选单个（或少数）稀疏变体，这迫使在异构加速器上的放置不够优化，导致服务水平目标（SLO）未达成。作者提出了 模型拼接（model stitching）的方法，即在运行时动态重新组合已有稀疏模型的子图，并通过一个名为 SparseLoom 的原型系统进行演示，该系统能够在真实的边缘系统芯片（SoC）上运行。

关键贡献

模型拼接概念 – 引入一种轻量级、无需训练的技术，通过复用预剪枝模型池中的子图来创建新的稀疏模型变体。
SparseLoom 运行时 – 一个端到端系统，将模型拼接与了解异构计算单元（CPU、GPU、DSP、NPU）的调度器集成。
基于 SLO 的分配 – 将多 DNN 调度扩展为考虑每个任务的延迟预算，显著降低截止期限错过率。
全面评估 – 显示相较于最佳可用的多 DNN 推理框架，SLO 违规率降低 74 %，吞吐量提升 2.31×，平均内存节省 28 %。
开源制品 – 作者发布代码和基准套件，支持可重复性并促进社区快速采用。

方法论

稀疏模型池 – 作者首先收集每个 DNN 的稀疏化版本（例如，70 % 和 90 % 权重剪枝）。
图划分 – 将每个模型拆分为逻辑子图（层或块），这些子图可以独立执行。
拼接引擎 – 在运行时，SparseLoom 从不同稀疏度级别中选择兼容的子图，组装成满足目标内存/延迟预算的 拼接模型。由于子图共享相同的架构和权重布局，无需额外的训练或微调。
异构调度器 – 将拼接模型映射到 SoC 的异构计算单元上，使用考虑加速器特定稀疏支持、内存带宽和每任务 SLO 的成本模型。
评估平台 – 实验在流行的边缘 SoC（如 Qualcomm Snapdragon、NVIDIA Jetson）上进行，使用真实的多 DNN 工作负载（目标检测 + 语音识别 + 姿态估计）。基线包括基于 TVM 的多 DNN 运行时和手工制作的静态模型选择。

结果与发现

指标	SparseLoom 与基线
SLO 违规率	↓ 74 % (max)
吞吐量（推理次数/秒）	↑ 2.31×
内存占用	↓ 28 % on average
每任务延迟	Meets 95 % of SLOs vs. 68 % for baseline
调度器开销	< 5 ms per scheduling decision (negligible)

收益主要来源于两个因素：(1) 能够为每个子图挑选恰当的稀疏度水平，避免了静态模型的“一刀切”惩罚；(2) 更好的加速器利用率，因为调度器可以将更密集的子图放在更快的单元上，而将超稀疏部分保留在受内存限制的核心上。

Practical Implications

Dynamic Edge Pipelines – 开发者现在可以构建模块化推理管道（例如，添加新的传感器模型），而无需手动重新剪枝或重新训练每个变体。
Reduced Firmware Footprint – 由于拼接模型是由现有二进制文件组装而成，固件体积保持较小——这对受限设备的 OTA 更新至关重要。
Improved QoE for Real‑Time Apps – 更低的 SLO 违规直接转化为更流畅的 AR/VR 体验、更可靠的语音助手以及更安全的自动驾驶感知系统。
Cost‑Effective Hardware Utilisation – 制造商可以只发布单一的 SoC SKU，并通过 SparseLoom 的调度器满足多样化工作负载需求，从而推迟对更高端加速器的需求。
Easier Portability – 开源运行时抽象了厂商特定的 SDK，使得将多 DNN 工作负载从 Snapdragon 移植到 Edge‑TPU 或 Jetson 平台更加简便。

限制与未来工作

拼接粒度 – 当前实现以块级别进行拼接；更细粒度的层级拼接可能带来额外的节省，但需要更复杂的依赖追踪。
稀疏性兼容性 – 并非所有稀疏模式（例如非结构化与结构化）在加速器上都得到同等支持；当硬件支持不足时，调度器可能回退到更密集的子图。
静态模型池 – 预剪枝模型池需要事先进行策划；该池的自动生成（例如通过神经架构搜索）留待未来研究。
能耗测量 – 虽然已经测量了吞吐量和内存，但对电池供电设备的详细功耗效率分析仍在进行中。

作者计划探索能够在设备上生成新稀疏水平的自适应剪枝，并将 SparseLoom 扩展以支持基于 Transformer 的模型，这类模型在边缘 AI 中日益普遍。

作者

Jiawei Luo
Di Wu
Simon Dobson
Blesson Varghese

论文信息

arXiv ID: 2603.09642v1
分类: cs.DC, cs.LG, cs.PF
出版日期: 2026年3月10日
PDF: 下载 PDF

[Paper] 边缘 SoC 上稀疏模型的多 DNN 推理

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于表征学习的任务感知调制用于陆地碳通量的上尺度

[Paper] 理解基于 Large Language Model 驱动的指南在让 Virtual Reality 对盲人和低视力人士可及方面的使用

[Paper] 说谎前先思考：推理如何提升诚实

[Paper] 面向 Python 的 Neural Debugger