[Paper] 在哪里划分？针对边缘推理的 DNN 分割的帕累托前沿分析

发布: 1周前 (2026年1月13日 GMT+8 05:57)

7 min read

原文: arXiv

Source: arXiv - 2601.08025v1

概述

在 Raspberry Pi 或低功耗 GPU 等边缘设备上部署深度神经网络（DNN）时，往往受到计算、内存和网络带宽的限制。本文将 DNN 划分问题重新定义——不再是单一目标的“加速”问题，而是 在延迟和吞吐量之间的多目标权衡，尤其是在现实中波动的网络条件下。作者提出了 ParetoPipe，一个开源框架，系统地在帕累托前沿上发现最佳的切分点，为工程师提供了一种实用的方式来平衡边缘推理的速度和数据率。

关键贡献

基于Pareto前沿的划分：将延迟和吞吐量视为同步目标，使用Pareto分析定位最优分割点。
全面的基准测试套件：在异构测试平台（多台 Raspberry Pi + 支持 GPU 的边缘服务器）上评估管道划分推理，覆盖多种网络场景。
开源工具链（ParetoPipe）：提供双通信后端（PyTorch RPC 和轻量级自定义协议），灵活的模型切片 API，以及用于自动生成 Pareto 前沿的脚本。
实证洞察：量化网络波动如何重塑延迟‑吞吐权衡，揭示出超越朴素“在第 X 层分割”启发式的非直观划分选择。

方法论

Model & Device Profiling – 作者对测试平台中每个设备的每个 DNN 层的计算时间和内存占用进行剖析，同时记录中间激活的数据大小。
Search Space Construction – 枚举所有可能的连续划分点（例如，“在设备 A 上运行层 0‑k，其余在设备 B 上”）。对于每个候选划分，利用已剖析的数据以及可调节的网络模型（用于模拟不同带宽/时延条件），估算端到端延迟和可实现的吞吐量。
Pareto Front Extraction – 将候选划分绘制在延迟‑吞吐空间中；那些 未被支配（即没有其他划分同时更快且吞吐更高）的点构成 Pareto 前沿。
Implementation & Validation – ParetoPipe 在真实测试平台上实现所选划分，通过 PyTorch RPC 或自定义轻量级套接字层执行实际推理流水线，以验证分析预测。
Scenario Sweeps – 实验在不同网络条件（Wi‑Fi、以太网、受限链路）和批量大小下进行扫描，观察前沿如何变化。

结果与发现

场景	最佳延迟划分	最佳吞吐量划分	Pareto 前沿形状
高带宽 LAN（1 Gbps）	所有层在边缘 GPU 上（≈ 3 ms 延迟）	在早期卷积层后划分（≈ 150 fps）	前沿窄 – 延迟和吞吐量同步提升
中等 Wi‑Fi（30 Mbps）	早期划分：前几层在 Pi 上，其余在 GPU 上（≈ 7 ms）	后期划分：在 Pi 上做更多工作以减少流量（≈ 80 fps）	前沿宽 – 存在明显的权衡
低带宽（5 Mbps）	大量卸载到 Pi（≈ 12 ms）	最大化 Pi 本地计算（≈ 30 fps）	前沿非常宽 – 延迟提升伴随吞吐量大幅下降

关键要点

网络带宽是首要因素；带宽下降时，最佳划分会出现剧烈变化。
Pareto 最优点往往位于层链的中间位置，这与常见的“仅边缘”或“仅云端”极端观点相悖。
使用轻量级自定义 RPC 相比原生 PyTorch RPC 将通信开销降低约 15 %，从而收紧了 Pareto 前沿。

Practical Implications

Dynamic Edge Orchestration – 开发者可以将 ParetoPipe 的决策引擎嵌入运行时管理器，在网络条件变化时（例如移动边缘、IoT 网关）实时重新评估切分。
Resource‑Aware Model Deployment – 与其手动调节批量大小或裁剪模型，工程师可以让 Pareto 分析自动选择满足延迟服务水平目标（SLA）且最大化吞吐量的切分点。
Cost‑Effective Scaling – 小型边缘集群（Raspberry Pis、Jetson Nano 等）通过利用最优的管道划分即可实现相当于 GPU 的吞吐量，而无需购买昂贵硬件。
Framework Integration – 由于 ParetoPipe 同时提供 PyTorch RPC 和最小化的自定义协议，能够直接嵌入现有的 PyTorch 流水线，或在非 Python 环境中通过少量胶水代码使用。

限制与未来工作

静态层粒度 – 当前的搜索仅考虑整层拆分；更细粒度的张量划分可能解锁更多 Pareto 点。
未建模能耗 – 虽然延迟和吞吐量至关重要，边缘部署往往还关心功耗；将框架扩展至将能耗作为第三目标的工作留待后续。
向更大集群的可扩展性 – 实验仅限于 4 节点 Raspberry Pi 集群加一台 GPU 服务器；将分析扩展到数十个异构节点可能需要对搜索空间进行启发式剪枝。
网络模型简化 – 真实的无线网络会出现突发丢包和抖动；引入随机网络模型可以使 Pareto 前沿更具鲁棒性。

ParetoPipe 为开发者将边缘推理视为一个平衡的优化问题而非单目标 hack 打开了大门。通过展示完整的延迟‑吞吐量前沿，它使得更智能、可自适应的部署成为可能，从而能够跟上瞬息万变的边缘环境。

作者

Adiba Masud
Nicholas Foley
Pragathi Durga Rajarajan
Palden Lama

论文信息

arXiv ID: 2601.08025v1
Categories: cs.DC
Published: 2026年1月12日
PDF: 下载 PDF

[Paper] 在哪里划分？针对边缘推理的 DNN 分割的帕累托前沿分析

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 空间最优、计算最优、拓扑无关、吞吐量可扩展的 Causal Delivery 通过 Hybrid Buffering

[Paper] Konflux：优化函数融合用于无服务器应用

[Paper] AFLL：基于循环因果学习的MMO游戏服务器实时负载稳定

[Paper] 利用量子纠缠突破分布式存储的存储-带宽权衡