[Paper] LLM驱动的意图式隐私感知编排跨越云‑边连续体

发布: 3天前 (2026年2月18日 GMT+8 08:09)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.16100v1

概述

该论文提出了一种新颖的系统，使大语言模型（LLM）推理能够在运行时即时适应不断变化的工作负载组合以及为现代云‑边缘基础设施提供动力的异构 GPU。通过仅在几毫秒的停机时间内实现“pipeline reconfiguration”，作者展示了即使在资源稀缺或工作负载剧烈变化的情况下，也能保持 LLM 服务的响应性。

关键贡献

动态管道重新配置，能够在 LLM 服务运行时切换新的 GPU 特定部署配置。
状态保留迁移技术，将庞大的模型参数和推理状态迁移，服务中断 ≤ 50 ms。
无服务器友好编排，可与现有函数即服务（FaaS）平台集成，实现弹性伸缩，无需手动调优。
实证评估在异构 GPU 集群（NVIDIA A100 与 L40）上进行，展示在首次令牌时间（TTFT）和每输出令牌时间（TPOT）上均低于 10 % 的开销。

方法论

工作负载特征化 – 系统持续监控请求模式（例如，令牌长度、并发数）以及 GPU 利用率。
配置目录 – 为每种 GPU 类型维护一套预计算的流水线布局（批大小、张量并行度、量化水平）。
决策引擎 – 基于 LLM 的策略模型在给定当前工作负载和硬件状态的情况下预测最佳配置。
实时迁移协议
- 检查点：将当前推理状态（注意力缓存、KV‑缓存）在 GPU 内存中快照。
- 参数流式传输：使用高速 PCIe/NVLink 链路将模型权重流式传输到目标 GPU，并利用压缩降低带宽需求。
- 热启动：在新流水线上恢复检查点，挂起的请求以最小延迟继续执行。
无服务器集成 – 整个流程被封装为无服务器函数，可由编排层自动触发，保持开发者熟悉的使用体验。

结果与发现

指标	基线（静态）	动态重新配置	开销
服务停机时间（迁移）	–	48 ms（平均）	< 0.05 s
TTFT	120 ms	128 ms	+6.7 %
TPOT	15 ms/token	16.3 ms/token	+8.7 %
GPU 利用率（异构混合）	68 %	84 %	+16 %

迁移成本远低于典型的人类感知延迟阈值（≈ 100 ms）。
即使在请求突发高峰时，系统也会选择更高吞吐量的配置（例如更大的批次、降低精度），并在负载减轻时恢复，保持整体延迟稳定。
异构硬件得到充分利用：更适合在 A100 上运行的工作负载会自动迁移到 A100，而较轻的任务则保留在性价比高的 L40 上。

实际影响

Serverless LLM APIs 现在可以在混合 GPU 池中自动扩展，无需开发者手动配置或重新配置容器。
Cost optimization：通过将低优先级推理迁移到更便宜的 GPU，并在需要时提升至高端 A100，云服务提供商可以提供分层定价并提升利用率。
Edge deployments：相同的技术可在配备普通 GPU 的边缘设备上运行，实现设备端推理，并在边缘负载过高时无缝回退到云端。
Continuous deployment：新模型版本或量化方案可以在不中断服务的情况下推出，减少依赖 LLM 的 SaaS 产品（如聊天机器人、代码助手）的停机时间。

限制与未来工作

该方法假设高速 GPU 间链接（PCIe 4.0/5.0、NVLink）；在较慢网络上迁移延迟可能会增加。
管道配置目录是静态的；针对未见硬件即时生成最优配置仍是一个未解决的挑战。
对流式模型参数的安全性和隐私并非重点——未来工作可以集成加密传输和验证。
将框架扩展到多节点、多区域编排（超出单一数据中心）留待后续研究。

作者

Zijie Su
Muhammed Tawfiqul Islam
Mohammad Goudarzi
Adel N. Toosi

论文信息

arXiv ID: 2602.16100v1
分类: cs.DC
出版日期: 2026年2月18日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] TopoSZp：轻量级拓扑感知误差控制压缩用于科学数据

误差界限有损压缩对于管理大规模 HPC 仿真产生的海量数据至关重要。虽然最先进的压缩器…

[Paper] Informative Trains：一种内存高效的自稳定领袖选举算法在匿名图中的实现

我们研究匿名 n 节点网络中的 self-stabilizing leader election 问题。实现 low space memory complexity 的 self-stabilization 是特别的……

[Paper] 可视化洞察：普适流处理服务的代理式优化

在靠近数据源处处理传感数据，通常涉及 Edge 设备，能够为智能城市等普遍应用提供低延迟。这种常见的……

[论文] Trivance：通过捷径化 Multiport Networks 实现延迟最优 AllReduce

AllReduce 是分布式计算中的一种基础集合操作，也是大规模训练和推理的关键性能瓶颈。它的完成…