[Paper] Splitwise:通过 Lyapunov-Assisted DRL 实现 LLM 的协同边缘‑云推理
发布: (2025年12月29日 GMT+8 16:57)
7 min read
原文: arXiv
Source: arXiv - 2512.23310v1
概述
在边缘设备(智能手机、物联网板卡、自治机器人)上部署当今庞大的语言模型是一个痛点:模型体积超出内存,且本地运行耗电。仅使用云端推理可以解决内存问题,但会带来延迟、带宽成本,并且在网络不稳定时可靠性下降。Splitwise 通过动态、细粒度的边缘‑云分区策略,持续根据工作负载和网络状况进行自适应,提供更快、更绿色的推理,同时不牺牲模型质量。
关键贡献
- 细粒度划分 – 将 Transformer 层拆分为注意力头和前馈子块,扩展了设计空间,远超传统的层级划分方式。
- Lyapunov 辅助的 DRL 控制器 – 一种分层深度强化学习策略,结合 Lyapunov 优化进行正则化,能够在随机请求到达的情况下,联合最小化延迟、能耗和精度损失,并保证队列稳定性。
- 鲁棒的检查点与恢复 – 引入指数退避检查点机制,以优雅地处理间歇性网络故障。
- 全面评估 – 在 Jetson Orin NX、Galaxy S23 和 Raspberry Pi 5 上使用 GPT‑2 (1.5 B)、LLaMA‑7 B 和 LLaMA‑13 B 进行真实场景实验,较最先进的划分器实现最高 2.8× 延迟降低 和 41 % 能耗节省。
- QoS 保证 – 与纯云推理相比,将第 95 百分位延迟降低 53‑61 %,且模型精度保持不变。
方法论
-
模型分解 – 将每个 Transformer 层拆分为两个逻辑子块:
- (a) 多头自注意力 (MHA) 头
- (b) 前馈网络 (FFN)
这产生了更多的部署选项(例如,一些头部放在边缘,其他放在云端)。
-
层次化 DRL 策略 –
- 高层代理 根据当前队列长度、设备电池电量和网络带宽决定 要离线多少 子块。
- 低层代理 选择具体的子块(哪些头部、哪些 FFN 切片)放置在边缘还是云端。
-
李雅普诺夫优化 – 李雅普诺夫函数衡量系统的“漂移”(队列增长)。通过最小化漂移加惩罚项,控制器确保请求队列保持稳定(无无限积压),同时优化延迟、能耗和精度损失的加权和。
-
检查点与恢复 – 每次推理步骤后,将轻量级检查点流式传输到云端。如果传输失败,系统会指数级退避并重试,防止作业整体失败。
-
训练与部署 – DRL 代理在离线模拟工作负载上进行训练,该工作负载模拟真实的请求模式和带宽轨迹。学习得到的策略随后被嵌入为边缘设备上的轻量级运行时库。
结果与发现
| 平台 | 模型 | 基准(仅云) | Splitwise | 延迟 ↓ | 能耗 ↓ | 第95百分位延迟 ↓ |
|---|---|---|---|---|---|---|
| Jetson Orin NX | LLaMA‑7B | 210 ms | 78 ms | 2.7× | 38 % | 58 % |
| Galaxy S23 | GPT‑2 1.5B | 180 ms | 65 ms | 2.8× | 41 % | 61 % |
| Raspberry Pi 5 | LLaMA‑13B | 420 ms | 150 ms | 2.8× | 35 % | 53 % |
- 准确率 与完整云端基准相差不超过 0.2 %,证实细粒度拆分不会引入显著的量化或近似误差。
- DRL 控制器在带宽突降(例如从 30 Mbps 降至 5 Mbps)时会将更多的 heads 移至边缘,保持尾部延迟低。
- 检查点恢复即使在 30 % 丢包的情况下也仅增加 < 5 ms 的开销。
实际影响
- Edge‑first AI 产品 – 移动应用、AR/VR 体验以及机器人现在可以在本地运行复杂的 LLM,而不会牺牲响应速度或耗尽电池。
- 成本效益的云使用 – 只将最耗算力的子块卸载到云端,数据中心负载和出站带宽费用大幅下降。
- 动态 QoS 供应 – 服务提供商可以嵌入 Splitwise,以确保即使用户在 Wi‑Fi 与蜂窝网络之间切换时也能满足延迟 SLA。
- 开发者友好 SDK – 作者发布了一个轻量级的 C++/Python 库,将 DRL 策略抽象为简单的
infer()调用,使其能够轻松集成到现有流水线中。 - 安全与隐私 – 对于处理用户特定上下文的注意力头,敏感的提示数据可以保留在设备上,降低向云端泄露的风险。
限制与未来工作
- 训练开销 – DRL 策略需要一个模拟环境,并且对每个新的模型‑硬件组合进行数小时的训练,这可能成为快速原型开发的障碍。
- 模型规模上限 – 实验止步于 13 B 参数;要扩展到 70 B 级别的模型可能需要额外的层次划分(例如跨多个云节点)。
- 网络假设 – 当前设计假设相对稳定的 TCP 连接;突发的基于 UDP 的流媒体或卫星链路需要单独的鲁棒性机制。
作者提出的未来方向:
- 元学习以在模型之间迁移策略。
- 将框架扩展到多边缘场景(例如边缘‑到‑边缘协作)。
- 融入量化感知划分,以进一步提升内存上限。
作者
- Abolfazl Younesi
- Abbas Shabrang Maryan
- Elyas Oustad
- Zahra Najafabadi Samani
- Mohsen Ansari
- Thomas Fahringer
论文信息
- arXiv ID: 2512.23310v1
- 分类: cs.LG, cs.AI, cs.DC, cs.ET, cs.NI
- 出版时间: 2025年12月29日
- PDF: 下载 PDF