[Paper] LLM驱动的意图式隐私感知编排跨越云‑边连续体

发布: (2026年2月18日 GMT+8 08:09)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.16100v1

概述

该论文提出了一种新颖的系统,使大语言模型(LLM)推理能够在运行时即时适应不断变化的工作负载组合以及为现代云‑边缘基础设施提供动力的异构 GPU。通过仅在几毫秒的停机时间内实现“pipeline reconfiguration”,作者展示了即使在资源稀缺或工作负载剧烈变化的情况下,也能保持 LLM 服务的响应性。

关键贡献

  • 动态管道重新配置,能够在 LLM 服务运行时切换新的 GPU 特定部署配置。
  • 状态保留迁移技术,将庞大的模型参数和推理状态迁移,服务中断 ≤ 50 ms。
  • 无服务器友好编排,可与现有函数即服务(FaaS)平台集成,实现弹性伸缩,无需手动调优。
  • 实证评估在异构 GPU 集群(NVIDIA A100 与 L40)上进行,展示在首次令牌时间(TTFT)和每输出令牌时间(TPOT)上均低于 10 % 的开销。

方法论

  1. 工作负载特征化 – 系统持续监控请求模式(例如,令牌长度、并发数)以及 GPU 利用率。
  2. 配置目录 – 为每种 GPU 类型维护一套预计算的流水线布局(批大小、张量并行度、量化水平)。
  3. 决策引擎 – 基于 LLM 的策略模型在给定当前工作负载和硬件状态的情况下预测最佳配置。
  4. 实时迁移协议
    • 检查点:将当前推理状态(注意力缓存、KV‑缓存)在 GPU 内存中快照。
    • 参数流式传输:使用高速 PCIe/NVLink 链路将模型权重流式传输到目标 GPU,并利用压缩降低带宽需求。
    • 热启动:在新流水线上恢复检查点,挂起的请求以最小延迟继续执行。
  5. 无服务器集成 – 整个流程被封装为无服务器函数,可由编排层自动触发,保持开发者熟悉的使用体验。

结果与发现

指标基线(静态)动态重新配置开销
服务停机时间(迁移)48 ms(平均)< 0.05 s
TTFT120 ms128 ms+6.7 %
TPOT15 ms/token16.3 ms/token+8.7 %
GPU 利用率(异构混合)68 %84 %+16 %
  • 迁移成本远低于典型的人类感知延迟阈值(≈ 100 ms)。
  • 即使在请求突发高峰时,系统也会选择更高吞吐量的配置(例如更大的批次、降低精度),并在负载减轻时恢复,保持整体延迟稳定。
  • 异构硬件得到充分利用:更适合在 A100 上运行的工作负载会自动迁移到 A100,而较轻的任务则保留在性价比高的 L40 上。

实际影响

  • Serverless LLM APIs 现在可以在混合 GPU 池中自动扩展,无需开发者手动配置或重新配置容器。
  • Cost optimization:通过将低优先级推理迁移到更便宜的 GPU,并在需要时提升至高端 A100,云服务提供商可以提供分层定价并提升利用率。
  • Edge deployments:相同的技术可在配备普通 GPU 的边缘设备上运行,实现设备端推理,并在边缘负载过高时无缝回退到云端。
  • Continuous deployment:新模型版本或量化方案可以在不中断服务的情况下推出,减少依赖 LLM 的 SaaS 产品(如聊天机器人、代码助手)的停机时间。

限制与未来工作

  • 该方法假设高速 GPU 间链接(PCIe 4.0/5.0、NVLink);在较慢网络上迁移延迟可能会增加。
  • 管道配置目录是静态的;针对未见硬件即时生成最优配置仍是一个未解决的挑战。
  • 对流式模型参数的安全性和隐私并非重点——未来工作可以集成加密传输和验证。
  • 将框架扩展到多节点、多区域编排(超出单一数据中心)留待后续研究。

作者

  • Zijie Su
  • Muhammed Tawfiqul Islam
  • Mohammad Goudarzi
  • Adel N. Toosi

论文信息

  • arXiv ID: 2602.16100v1
  • 分类: cs.DC
  • 出版日期: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »