[Paper] 基于QoS的计算连续体负载均衡:多玩家Bandits
发布: (2025年12月22日 GMT+8 07:18)
7 min read
原文: arXiv
Source: arXiv - 2512.18915v1
概述
本文介绍了 QEdgeProxy,这是一种去中心化的负载均衡层,专为新兴的 计算连续体——云、边缘和设备级计算的无缝融合——而设计。通过将每个负载均衡器视为多臂赌博机(multi‑armed bandit)游戏中的玩家,QEdgeProxy 能够动态地将 IoT 流量引导至最有可能满足每个客户端延迟和可靠性目标的服务实例,即使工作负载和网络条件在不断变化。
关键贡献
- QoS‑centric formulation: 将连续体中的负载均衡表述为一个多玩家多臂老虎机(MP‑MAB)问题,具有异构奖励,直接建模每个客户端的 QoS 成功概率。
- Kernel Density Estimation (KDE) for reward modeling: 使用核密度估计(KDE)来估计观测响应时间的分布,从而提供平滑的概率估计,以满足客户端的 QoS 截止时间。
- Adaptive exploration strategy: 引入一种轻量级、上下文感知的探索机制,能够快速响应非平稳条件(例如,突发负载激增或实例故障)。
- Kubernetes‑native implementation: 提供开源的 QEdgeProxy,可作为 sidecar/代理在 K3s 集群中运行,无需对现有服务进行任何更改。
- Empirical validation: 在真实的边缘 AI 工作负载上展示,QEdgeProxy 在每个客户端的 QoS 满意度和适应性方面优于简单的基于距离的路由以及最先进的强化学习负载均衡器。
Source: …
方法论
- 问题建模 – 每个边缘代理(玩家)必须为每个传入请求在多个服务实例(臂)中选择一个。奖励 为二元值:如果请求满足客户端的 QoS 截止时间则为 1,否则为 0。由于不同客户端的延迟目标不同,奖励在玩家之间是异构的。
- 使用 KDE 的奖励估计 – QEdgeProxy 不采用计数成功次数的方式,而是为每个臂构建观测响应时间分布的核密度估计(KDE)。曲线下方位于客户端截止时间以下的面积即为估计的成功概率。
- 决策规则 – 玩家使用一种上置信界(UCB)风格的规则,将估计的成功概率与探索奖励相平衡。当 KDE 越来越有信心时,探索奖励会收缩;而当近期观测表明分布发生偏移时,探索奖励会扩大。
- 对非平稳性的适应 – 采用滑动窗口剔除陈旧样本,并在检测到估计分布出现显著变化(例如通过 KL 散度检验)后提升探索奖励。
- 实现 – QEdgeProxy 被打包为轻量级的 Go 服务,拦截 HTTP/gRPC 流量,查询本地 KDE 表,并将请求转发至选定的实例。它通过自定义资源定义(CRD)与 Kubernetes 集成,声明每个客户端的 QoS 目标。
Source: …
结果与发现
| 基准 | 每客户端平均 QoS 满意度 | 适应延迟(对负载激增的响应) |
|---|---|---|
| 基于邻近性的路由 | 71 % | 45 s |
| 基于强化学习的负载均衡器 (DQN) | 78 % | 30 s |
| QEdgeProxy | 92 % | 12 s |
- 更高的 QoS 满意度: QEdgeProxy 能持续将对延迟敏感的请求保持在截止时间内,相比强化学习基线提升约 15 %。
- 快速恢复: 当服务实例故障或突发流量冲击边缘节点时,QEdgeProxy 能在数秒内重新分配流量,而强化学习模型需要更多回合才能重新学习。
- 低开销: 代理每个请求仅增加 < 2 ms 的处理延迟,与典型的边缘 AI 推理时间(≈ 30 ms)相比可忽略不计。
实际影响
- Edge‑AI 部署: 开发者可以将 QEdgeProxy 插入现有的 K3s 或 micro‑k8s 集群,以保证摄像头、无人机或 AR 设备的推理延迟,而无需重新设计其服务。
- SLA 驱动的多租户平台: 云‑边缘提供商可以公开每个租户的 QoS 合同;QEdgeProxy 自动执行这些合同,减少手动流量工程的需求。
- 成本效率: 通过将流量引导至 最可能 成功的实例,而不是最近的实例,运营商可以让规格较低的边缘节点更长时间在线,从而节省硬件和能源。
- 零接触扩展: 自适应探索消除了 RL‑基控制器常见的“冷启动”问题,使 QEdgeProxy 适用于节点频繁加入/离开的高度动态 IoT 车队。
限制与未来工作
- 假设可靠的 QoS 反馈: 该方法需要准确的响应时间测量;噪声时间戳(例如,未同步的时钟)可能会降低 KDE 估计的准确性。
- KDE 表的可扩展性: 虽然对少量实例来说轻量,但为数百个臂维护 KDE 可能会增加内存使用;分层或基于 sketch 的近似是可能的解决方案。
- 仅限于二元 QoS 成功: 将模型扩展到多维 SLA(例如抖动、吞吐量)将扩大适用范围。
- 真实部署研究: 作者计划在生产边缘网络(例如 5G MEC)上评估 QEdgeProxy,以确认其在真实流量模式和异构硬件下的鲁棒性。
作者
- Ivan Čilić
- Ivana Podnar Žarko
- Pantelis Frangoudis
- Schahram Dustdar
论文信息
- arXiv ID: 2512.18915v1
- Categories: cs.NI, cs.DC
- Published: December 21, 2025
- PDF: 下载 PDF