[Paper] Splitwise：通过 Lyapunov-Assisted DRL 实现 LLM 的协同边缘‑云推理

发布: 3周前 (2025年12月29日 GMT+8 16:57)

7 min read

原文: arXiv

Source: arXiv - 2512.23310v1

概述

在边缘设备（智能手机、物联网板卡、自治机器人）上部署当今庞大的语言模型是一个痛点：模型体积超出内存，且本地运行耗电。仅使用云端推理可以解决内存问题，但会带来延迟、带宽成本，并且在网络不稳定时可靠性下降。Splitwise 通过动态、细粒度的边缘‑云分区策略，持续根据工作负载和网络状况进行自适应，提供更快、更绿色的推理，同时不牺牲模型质量。

关键贡献

细粒度划分 – 将 Transformer 层拆分为注意力头和前馈子块，扩展了设计空间，远超传统的层级划分方式。
Lyapunov 辅助的 DRL 控制器 – 一种分层深度强化学习策略，结合 Lyapunov 优化进行正则化，能够在随机请求到达的情况下，联合最小化延迟、能耗和精度损失，并保证队列稳定性。
鲁棒的检查点与恢复 – 引入指数退避检查点机制，以优雅地处理间歇性网络故障。
全面评估 – 在 Jetson Orin NX、Galaxy S23 和 Raspberry Pi 5 上使用 GPT‑2 (1.5 B)、LLaMA‑7 B 和 LLaMA‑13 B 进行真实场景实验，较最先进的划分器实现最高 2.8× 延迟降低 和 41 % 能耗节省。
QoS 保证 – 与纯云推理相比，将第 95 百分位延迟降低 53‑61 %，且模型精度保持不变。

方法论

模型分解 – 将每个 Transformer 层拆分为两个逻辑子块：
- (a) 多头自注意力 (MHA) 头
- (b) 前馈网络 (FFN)
这产生了更多的部署选项（例如，一些头部放在边缘，其他放在云端）。
层次化 DRL 策略 –
- 高层代理 根据当前队列长度、设备电池电量和网络带宽决定 要离线多少 子块。
- 低层代理 选择具体的子块（哪些头部、哪些 FFN 切片）放置在边缘还是云端。
李雅普诺夫优化 – 李雅普诺夫函数衡量系统的“漂移”（队列增长）。通过最小化漂移加惩罚项，控制器确保请求队列保持稳定（无无限积压），同时优化延迟、能耗和精度损失的加权和。
检查点与恢复 – 每次推理步骤后，将轻量级检查点流式传输到云端。如果传输失败，系统会指数级退避并重试，防止作业整体失败。
训练与部署 – DRL 代理在离线模拟工作负载上进行训练，该工作负载模拟真实的请求模式和带宽轨迹。学习得到的策略随后被嵌入为边缘设备上的轻量级运行时库。

结果与发现

平台	模型	基准（仅云）	Splitwise	延迟 ↓	能耗 ↓	第95百分位延迟 ↓
Jetson Orin NX	LLaMA‑7B	210 ms	78 ms	2.7×	38 %	58 %
Galaxy S23	GPT‑2 1.5B	180 ms	65 ms	2.8×	41 %	61 %
Raspberry Pi 5	LLaMA‑13B	420 ms	150 ms	2.8×	35 %	53 %

准确率 与完整云端基准相差不超过 0.2 %，证实细粒度拆分不会引入显著的量化或近似误差。
DRL 控制器在带宽突降（例如从 30 Mbps 降至 5 Mbps）时会将更多的 heads 移至边缘，保持尾部延迟低。
检查点恢复即使在 30 % 丢包的情况下也仅增加 < 5 ms 的开销。

实际影响

Edge‑first AI 产品 – 移动应用、AR/VR 体验以及机器人现在可以在本地运行复杂的 LLM，而不会牺牲响应速度或耗尽电池。
成本效益的云使用 – 只将最耗算力的子块卸载到云端，数据中心负载和出站带宽费用大幅下降。
动态 QoS 供应 – 服务提供商可以嵌入 Splitwise，以确保即使用户在 Wi‑Fi 与蜂窝网络之间切换时也能满足延迟 SLA。
开发者友好 SDK – 作者发布了一个轻量级的 C++/Python 库，将 DRL 策略抽象为简单的 infer() 调用，使其能够轻松集成到现有流水线中。
安全与隐私 – 对于处理用户特定上下文的注意力头，敏感的提示数据可以保留在设备上，降低向云端泄露的风险。

限制与未来工作

训练开销 – DRL 策略需要一个模拟环境，并且对每个新的模型‑硬件组合进行数小时的训练，这可能成为快速原型开发的障碍。
模型规模上限 – 实验止步于 13 B 参数；要扩展到 70 B 级别的模型可能需要额外的层次划分（例如跨多个云节点）。
网络假设 – 当前设计假设相对稳定的 TCP 连接；突发的基于 UDP 的流媒体或卫星链路需要单独的鲁棒性机制。

作者提出的未来方向：

元学习以在模型之间迁移策略。
将框架扩展到多边缘场景（例如边缘‑到‑边缘协作）。
融入量化感知划分，以进一步提升内存上限。

作者

Abolfazl Younesi
Abbas Shabrang Maryan
Elyas Oustad
Zahra Najafabadi Samani
Mohsen Ansari
Thomas Fahringer

论文信息

arXiv ID: 2512.23310v1
分类: cs.LG, cs.AI, cs.DC, cs.ET, cs.NI
出版时间: 2025年12月29日
PDF: 下载 PDF

[Paper] Splitwise：通过 Lyapunov-Assisted DRL 实现 LLM 的协同边缘‑云推理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理