[Paper] 联合划分与部署 Foundation Models 用于实时边缘 AI

发布: (2025年12月1日 GMT+8 03:16)
7 min read
原文: arXiv

Source: arXiv - 2512.01039v1

概览

本文针对在边缘构建 AI 驱动服务的开发者面临的紧迫问题:如何在一组异构、带宽受限且计算和网络条件不断变化的设备上运行大规模基础模型(如大型语言模型或视觉模型)。作者并未在部署时固定模型的层划分,而是提出了一种 运行时感知的编排框架,能够联合决定每一层的运行位置 以及 模型的切分方式,并在延迟、利用率和隐私约束变化时即时适配。

关键贡献

  • 动态联合划分与放置公式化: 将问题建模为约束优化,同时选择层分配和物理位置,以实时资源波动作出响应。
  • 模型感知的容量剖析: 引入轻量级剖析层,持续测量每个设备的计算、内存、网络带宽以及隐私相关指标。
  • 响应式图重新划分算法: 一种快速、近似最优的启发式方法,在条件变化时重新划分模型图,避免昂贵的全局重新优化。
  • 面向 6G 多接入边缘计算(MEC)的原型实现: 展示了与真实边缘栈(容器运行时、SD‑WAN 与安全 enclave)的端到端集成。
  • 对一系列基础模型的实证评估(BERT‑large、ViT‑B/16、Whisper‑base): 与静态划分基线相比,实现了最高 3.2× 延迟降低45 % 带宽使用下降

方法论

  1. 系统模型 – 将边缘环境建模为有向图,节点代表计算资源(如智能手机、边缘服务器、6G 基站),边表示网络链路,具有时变的延迟和带宽。
  2. 层级成本模型 – 为每个模型层标注计算需求、内存占用和输出数据大小。这些指标通过剖析组件在一次短暂热身运行中获得。
  3. 优化目标 – 在满足约束的前提下最小化端到端推理延迟: (a) 每节点资源上限,(b) 网络带宽上限,(c) 隐私策略(禁止特定数据离开可信区域)。
  4. 求解器架构 – 该问题为 NP‑hard,作者设计了两阶段启发式:
    • 使用“最受约束优先”贪心规则进行 初始放置
    • 通过变化检测模块(如链路延迟上升 20 %)触发 持续重新划分。重新划分器运行轻量级图割算法,仅交换少量层,保持整体解的稳定。
  5. 实现栈 – 基于 Kubernetes 的边缘编排,使用自定义资源定义(CRD)实现 “ModelSlice” 对象。切片之间的通信采用 gRPC,并可对隐私敏感的跳点进行加密。

结果与发现

ModelBaseline (static)Dynamic Joint (this work)Latency ReductionBandwidth Savings
BERT‑large (text)210 ms68 ms3.1×48 %
ViT‑B/16 (vision)340 ms115 ms2.9×42 %
Whisper‑base (audio)480 ms150 ms3.2×45 %
  • 适应性: 当移动设备的 CPU 负载因后台应用激增时,框架会自动将计算最密集的层迁移至附近的边缘服务器,保持延迟在 SLA 范围内。
  • 隐私合规: 在原始视频帧必须留在设备本地的场景下,系统将早期卷积层保留本地,仅将抽象特征图离线,满足隐私约束且几乎不增加延迟。
  • 开销: 重新划分决策循环在普通边缘控制器上耗时 < 15 ms,适用于实时工作负载。

实际意义

  • 边缘 AI 开发者现在可以在不进行硬件超配的情况下部署大型基础模型——框架在整个边缘连续体上动态平衡负载,降低对昂贵本地加速器的需求。
  • 服务运营商获得统一的控制平面,能够遵循隐私策略和 SLA 目标,简化受监管行业(医疗、金融)的合规工作。
  • 网络运营商可利用该方法平滑流量峰值:通过将重计算层转移至空闲边缘节点,系统降低回程带宽使用,这在带宽受限的 5G/6G 部署中尤为重要。
  • 工具链集成: 作者发布了 Python SDK,可直接接入现有模型服务栈(TensorRT、ONNX Runtime),团队只需少量代码改动即可采用该技术。
  • “模型即服务”市场的潜力: 提供商可以公开切片模型,模型会自动适配每个消费者的边缘拓扑,开启新的商业模式。

局限性与未来工作

  • 对成千上万节点的可扩展性: 当前原型在最多 20 个边缘节点的集群上评估,作者承认在城市规模部署时需要进一步调优启发式策略。
  • 模型粒度: 当层之间高度耦合(如紧密耦合的注意力头)时,可能会产生额外的同步开销,方法的效果会受限。
  • 安全假设: 虽然数据在传输过程中可以加密,但框架尚未集成安全多方计算或同态加密,以实现真正的机密推理。
  • 未来方向 包括将优化器扩展至处理 模型更新(如持续学习)、融合基于强化学习的放置策略,并开源完整的编排栈以供社区基准测试。

作者

  • Aladin Djuhera
  • Fernando Koch
  • Alecio Binotto

论文信息

  • arXiv ID: 2512.01039v1
  • Categories: cs.DC, cs.LG, cs.NI
  • Published: November 30, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »