[Paper] 联合划分与部署 Foundation Models 用于实时边缘 AI

发布: 5天前 (2025年12月1日 GMT+8 03:16)

7 min read

原文: arXiv

Source: arXiv - 2512.01039v1

概览

本文针对在边缘构建 AI 驱动服务的开发者面临的紧迫问题：如何在一组异构、带宽受限且计算和网络条件不断变化的设备上运行大规模基础模型（如大型语言模型或视觉模型）。作者并未在部署时固定模型的层划分，而是提出了一种 运行时感知的编排框架，能够联合决定每一层的运行位置以及模型的切分方式，并在延迟、利用率和隐私约束变化时即时适配。

关键贡献

动态联合划分与放置公式化： 将问题建模为约束优化，同时选择层分配和物理位置，以实时资源波动作出响应。
模型感知的容量剖析： 引入轻量级剖析层，持续测量每个设备的计算、内存、网络带宽以及隐私相关指标。
响应式图重新划分算法： 一种快速、近似最优的启发式方法，在条件变化时重新划分模型图，避免昂贵的全局重新优化。
面向 6G 多接入边缘计算（MEC）的原型实现： 展示了与真实边缘栈（容器运行时、SD‑WAN 与安全 enclave）的端到端集成。
对一系列基础模型的实证评估（BERT‑large、ViT‑B/16、Whisper‑base）： 与静态划分基线相比，实现了最高 3.2× 延迟降低 与 45 % 带宽使用下降。

方法论

系统模型 – 将边缘环境建模为有向图，节点代表计算资源（如智能手机、边缘服务器、6G 基站），边表示网络链路，具有时变的延迟和带宽。
层级成本模型 – 为每个模型层标注计算需求、内存占用和输出数据大小。这些指标通过剖析组件在一次短暂热身运行中获得。
优化目标 – 在满足约束的前提下最小化端到端推理延迟： (a) 每节点资源上限，(b) 网络带宽上限，(c) 隐私策略（禁止特定数据离开可信区域）。
求解器架构 – 该问题为 NP‑hard，作者设计了两阶段启发式：
- 使用“最受约束优先”贪心规则进行 初始放置。
- 通过变化检测模块（如链路延迟上升 20 %）触发 持续重新划分。重新划分器运行轻量级图割算法，仅交换少量层，保持整体解的稳定。
实现栈 – 基于 Kubernetes 的边缘编排，使用自定义资源定义（CRD）实现 “ModelSlice” 对象。切片之间的通信采用 gRPC，并可对隐私敏感的跳点进行加密。

结果与发现

Model	Baseline (static)	Dynamic Joint (this work)	Latency Reduction	Bandwidth Savings
BERT‑large (text)	210 ms	68 ms	3.1×	48 %
ViT‑B/16 (vision)	340 ms	115 ms	2.9×	42 %
Whisper‑base (audio)	480 ms	150 ms	3.2×	45 %

适应性： 当移动设备的 CPU 负载因后台应用激增时，框架会自动将计算最密集的层迁移至附近的边缘服务器，保持延迟在 SLA 范围内。
隐私合规： 在原始视频帧必须留在设备本地的场景下，系统将早期卷积层保留本地，仅将抽象特征图离线，满足隐私约束且几乎不增加延迟。
开销： 重新划分决策循环在普通边缘控制器上耗时 < 15 ms，适用于实时工作负载。

实际意义

边缘 AI 开发者现在可以在不进行硬件超配的情况下部署大型基础模型——框架在整个边缘连续体上动态平衡负载，降低对昂贵本地加速器的需求。
服务运营商获得统一的控制平面，能够遵循隐私策略和 SLA 目标，简化受监管行业（医疗、金融）的合规工作。
网络运营商可利用该方法平滑流量峰值：通过将重计算层转移至空闲边缘节点，系统降低回程带宽使用，这在带宽受限的 5G/6G 部署中尤为重要。
工具链集成： 作者发布了 Python SDK，可直接接入现有模型服务栈（TensorRT、ONNX Runtime），团队只需少量代码改动即可采用该技术。
“模型即服务”市场的潜力： 提供商可以公开切片模型，模型会自动适配每个消费者的边缘拓扑，开启新的商业模式。

局限性与未来工作

对成千上万节点的可扩展性： 当前原型在最多 20 个边缘节点的集群上评估，作者承认在城市规模部署时需要进一步调优启发式策略。
模型粒度： 当层之间高度耦合（如紧密耦合的注意力头）时，可能会产生额外的同步开销，方法的效果会受限。
安全假设： 虽然数据在传输过程中可以加密，但框架尚未集成安全多方计算或同态加密，以实现真正的机密推理。
未来方向 包括将优化器扩展至处理 模型更新（如持续学习）、融合基于强化学习的放置策略，并开源完整的编排栈以供社区基准测试。

作者

Aladin Djuhera
Fernando Koch
Alecio Binotto

论文信息

arXiv ID: 2512.01039v1
Categories: cs.DC, cs.LG, cs.NI
Published: November 30, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 通用权重子空间假设

我们展示了在不同任务上训练的深度神经网络表现出惊人相似的低维参数子空间。我们提供了首次大规模……

[Paper] 价值梯度引导用于流匹配对齐

虽然已有方法可以将 flow matching models——一种流行且有效的 generative models——与 human preferences 对齐，但现有方法未能……

[Paper] 基于多对比 MRI 的深度婴儿脑分割

磁共振成像（MRI）的分割通过划分解剖结构，促进对人类大脑发育的分析。然而，在婴儿和...

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

最近的统一多模态大语言模型（MLLMs）展示了令人印象深刻的能力，结合了链式思考（CoT）推理，以增强文本到-...