[Paper] LLM驱动的意图式隐私感知编排跨越云‑边连续体
发布: (2026年2月18日 GMT+8 08:09)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.16100v1
概述
该论文提出了一种新颖的系统,使大语言模型(LLM)推理能够在运行时即时适应不断变化的工作负载组合以及为现代云‑边缘基础设施提供动力的异构 GPU。通过仅在几毫秒的停机时间内实现“pipeline reconfiguration”,作者展示了即使在资源稀缺或工作负载剧烈变化的情况下,也能保持 LLM 服务的响应性。
关键贡献
- 动态管道重新配置,能够在 LLM 服务运行时切换新的 GPU 特定部署配置。
- 状态保留迁移技术,将庞大的模型参数和推理状态迁移,服务中断 ≤ 50 ms。
- 无服务器友好编排,可与现有函数即服务(FaaS)平台集成,实现弹性伸缩,无需手动调优。
- 实证评估在异构 GPU 集群(NVIDIA A100 与 L40)上进行,展示在首次令牌时间(TTFT)和每输出令牌时间(TPOT)上均低于 10 % 的开销。
方法论
- 工作负载特征化 – 系统持续监控请求模式(例如,令牌长度、并发数)以及 GPU 利用率。
- 配置目录 – 为每种 GPU 类型维护一套预计算的流水线布局(批大小、张量并行度、量化水平)。
- 决策引擎 – 基于 LLM 的策略模型在给定当前工作负载和硬件状态的情况下预测最佳配置。
- 实时迁移协议
- 检查点:将当前推理状态(注意力缓存、KV‑缓存)在 GPU 内存中快照。
- 参数流式传输:使用高速 PCIe/NVLink 链路将模型权重流式传输到目标 GPU,并利用压缩降低带宽需求。
- 热启动:在新流水线上恢复检查点,挂起的请求以最小延迟继续执行。
- 无服务器集成 – 整个流程被封装为无服务器函数,可由编排层自动触发,保持开发者熟悉的使用体验。
结果与发现
| 指标 | 基线(静态) | 动态重新配置 | 开销 |
|---|---|---|---|
| 服务停机时间(迁移) | – | 48 ms(平均) | < 0.05 s |
| TTFT | 120 ms | 128 ms | +6.7 % |
| TPOT | 15 ms/token | 16.3 ms/token | +8.7 % |
| GPU 利用率(异构混合) | 68 % | 84 % | +16 % |
- 迁移成本远低于典型的人类感知延迟阈值(≈ 100 ms)。
- 即使在请求突发高峰时,系统也会选择更高吞吐量的配置(例如更大的批次、降低精度),并在负载减轻时恢复,保持整体延迟稳定。
- 异构硬件得到充分利用:更适合在 A100 上运行的工作负载会自动迁移到 A100,而较轻的任务则保留在性价比高的 L40 上。
实际影响
- Serverless LLM APIs 现在可以在混合 GPU 池中自动扩展,无需开发者手动配置或重新配置容器。
- Cost optimization:通过将低优先级推理迁移到更便宜的 GPU,并在需要时提升至高端 A100,云服务提供商可以提供分层定价并提升利用率。
- Edge deployments:相同的技术可在配备普通 GPU 的边缘设备上运行,实现设备端推理,并在边缘负载过高时无缝回退到云端。
- Continuous deployment:新模型版本或量化方案可以在不中断服务的情况下推出,减少依赖 LLM 的 SaaS 产品(如聊天机器人、代码助手)的停机时间。
限制与未来工作
- 该方法假设高速 GPU 间链接(PCIe 4.0/5.0、NVLink);在较慢网络上迁移延迟可能会增加。
- 管道配置目录是静态的;针对未见硬件即时生成最优配置仍是一个未解决的挑战。
- 对流式模型参数的安全性和隐私并非重点——未来工作可以集成加密传输和验证。
- 将框架扩展到多节点、多区域编排(超出单一数据中心)留待后续研究。
作者
- Zijie Su
- Muhammed Tawfiqul Islam
- Mohammad Goudarzi
- Adel N. Toosi
论文信息
- arXiv ID: 2602.16100v1
- 分类: cs.DC
- 出版日期: 2026年2月18日
- PDF: 下载 PDF