[Paper] 基于强化学习的结构化并行 Farm Skeleton 动态管理在 Serverless 平台上
发布: (2026年2月6日 GMT+8 17:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06555v1
概述
本文介绍了一种新颖的框架,利用强化学习(RL)在诸如 OpenFaaS 的无服务器平台上自动扩展 structured parallel “farm” skeletons。通过将自动扩展视为面向 QoS 的资源管理问题,作者展示了 AI 驱动的策略如何在保持开发者喜爱的高级编程模型的同时,实现类似 HPC 的性能和弹性。
关键贡献
- 可重用的 farm skeleton 模板,用于 OpenFaaS,抽象掉低层编排细节。
- 兼容 Gymnasium 的监控/控制层,向外部控制器公开队列长度、延迟和 QoS 指标。
- 两种基于 RL 的自动伸缩代理(一种策略梯度方法和一种深度 Q 网络),用于动态调整并行工作者数量。
- 全面的评估,相对于基于简单分析性能模型的经典响应式控制器进行比较。
- 证据表明 AI 驱动的伸缩更好地遵守平台限制(例如冷启动延迟、并发上限),同时提供更高的 QoS 和稳定的资源使用。
方法论
- Farm Skeleton Design – 经典的 Farm 模式(一个主节点将独立任务分配给一组工作者)实现为一组 OpenFaaS 函数:一个调度器和多个无状态工作者函数。
- Instrumentation – 系统持续向中央控制器报告三个关键信号:
- Queue depth(队列深度,表示有多少任务在等待),
- Task processing time(任务处理时间,即每个工作者的延迟),以及
- QoS target(服务质量目标,例如最大允许的端到端延迟)。
- Control Loop – 控制器在 Gymnasium 环境中运行,每一步包括:
- 观察当前指标,
- 选择一个动作(增加、减少或保持当前工作者数量),
- 通过调用 OpenFaaS 的伸缩 API 执行动作,
- 根据 QoS 合规性和资源效率获得奖励。
- Learning Algorithms –
- Policy Gradient (PG):直接学习一个关于伸缩动作的概率分布。
- Deep Q‑Network (DQN):学习一个价值函数,估计每个动作的长期奖励。
- Baseline Reactive Controller – 使用基于简单排队模型的手工规则(例如,队列超过阈值时扩容,空闲时缩容)。
所有实验均在装有 OpenFaaS 的小型 Kubernetes 集群上运行,处理模拟突发、对延迟敏感的合成工作负载。
结果与发现
| 指标 | 响应式基线 | RL‑PG | RL‑DQN |
|---|---|---|---|
| 第95百分位延迟 | 210 ms | 165 ms | 158 ms |
| 平均工作者数量 | 12.4 | 10.7 | 10.5 |
| 伸缩振荡(每分钟扩容/缩容事件) | 8.2 | 4.1 | 3.9 |
| 冷启动惩罚影响 | 明显的峰值 | 已缓解 | 已缓解 |
- QoS 改进:两个 RL 代理都将延迟保持在目标(150 ms)以下,而响应式控制器在突发期间经常违反该目标。
- 资源效率:RL 策略平均使用约 15 % 更少的工作者,从而实现成本节约。
- 稳定性:得益于对不必要伸缩进行惩罚的奖励函数,学习到的策略避免了响应式规则中出现的“抖动”行为。
- 平台感知:RL 代理隐式学习 OpenFaaS 特定约束(例如最大并发函数实例数),并相应地调整伸缩决策,而简单模型无法捕获这些。
实际意义
- 无服务器 HPC 工作负载 – 开发者现在可以在无服务器基础设施上运行极易并行的任务(图像处理、蒙特卡罗模拟、数据增强流水线),无需手动调优自动伸缩规则。
- 成本感知伸缩 – 通过在奖励中嵌入资源使用惩罚,RL 代理可以自动在性能与云费用之间取得平衡,这对 DevOps 团队来说是常见的关注点。
- 即插即用集成 – 与 Gymnasium 兼容的控制层意味着现有的 RL 库(Stable‑Baselines3、RLlib)可以在最少代码更改的情况下替换使用,为针对特定 SLA 定制的策略打开大门。
- 对平台怪癖的弹性 – 冷启动延迟、函数并发限制和限流等问题会被学习而不是手动建模,减少在不同无服务器提供商(OpenFaaS、Knative、AWS Lambda 等)之间迁移时所需的工程工作量。
- 面向未来 – 同一架构可以扩展到其他骨架(流水线、Map‑Reduce)或混合“连续体”环境,融合边缘、雾计算和云资源。
限制与未来工作
- 工作负载多样性 – 实验使用了合成的、独立的任务;实际应用中存在数据依赖或计算强度可变的情况,可能需要更丰富的状态表示。
- 训练开销 – 强化学习代理需要离线训练阶段;快速部署的场景可能受益于在线或元学习方法。
- 控制器的可扩展性 – 中央 Gymnasium 循环在大规模多租户集群中可能成为瓶颈;去中心化或层次化的控制方案是一个有前景的方向。
- 跨平台的泛化能力 – 虽然该框架以 OpenFaaS 为中心,迁移到托管的无服务器服务时需要为不同的伸缩 API 和指标暴露实现适配器。
作者计划探索多代理强化学习,以同时协调多个骨架,并整合迁移学习技术,使在一种工作负载上训练的策略能够在另一种工作负载上快速启动伸缩。
作者
- Lanpei Li
- Massimo Coppola
- Malio Li
- Valerio Besozzi
- Jack Bell
- Vincenzo Lomonaco
论文信息
- arXiv ID: 2602.06555v1
- 分类: cs.DC, cs.LG
- 出版日期: 2026年2月6日
- PDF: 下载 PDF