[Paper] 绿色还是快速?学习在 Serverless Computing 中平衡 Cold Starts 与 Idle Carbon
发布: (2026年2月27日 GMT+8 19:35)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.23935v1
请提供您希望翻译的正文内容(例如摘要、章节、段落等),我将按照要求保留原始链接、格式和技术术语,仅翻译文本部分。谢谢!
概览
本文探讨了无服务器平台中的一个核心矛盾:保持函数实例“热”以避免代价高昂的冷启动, versus 将其释放以降低空闲功耗及相关的碳排放。作者将保活决策视为一个序列学习问题,提出了 LACE‑RL——一种强化学习控制器,能够根据实时工作负载和电网碳强度动态调整预热时间。实验结果显示,该方法显著降低了延迟峰值和碳浪费,使无服务器计算在不牺牲性能的前提下更加可持续。
关键贡献
- LACE‑RL framework:一种深度强化学习(RL)控制器,能够同时优化延迟(避免冷启动)和碳影响(空闲排放)。
- Latency‑aware carbon model:将每个函数的冷启动概率、函数特定的延迟惩罚以及实时电网碳强度整合为单一奖励信号。
- Dynamic keep‑alive policy:用在线学习的、针对每个函数的、随时间变化的决策取代静态的“一刀切”保活计时器。
- Extensive evaluation:使用华为公有云追踪数据(真实工作负载 + 区域碳数据)对比华为的静态策略、启发式基线以及单目标 RL 方法进行基准测试。
- Near‑optimal trade‑off:实现了接近了解未来工作负载的最优解的性能,同时相较于静态基线将冷启动减少约 ≈ 52 %,空闲碳排放降低约 ≈ 77 %。
方法论
- 问题表述 – 决定函数 pod 在完成后保持存活的时长被建模为马尔可夫决策过程(MDP)。状态捕获最近的请求率、当前电网的碳强度以及函数的历史冷启动延迟。
- 奖励设计 – 奖励对延迟(按服务水平目标加权的冷启动延迟)和碳排放(kWh × 电网碳强度)进行惩罚,惩罚在 pod 空闲期间产生。可调系数让运营者在两个目标之间进行权衡。
- 深度强化学习代理 – 使用带经验回放的对偶 DQN(Deep Q‑Network)学习一个将状态映射到保持存活时长(离散动作空间)的策略。网络在实时追踪数据上在线训练,使其能够适应昼夜工作负载和碳强度模式。
- 基线比较 – 作者实现了华为的静态保持计时器、一个随请求率伸缩计时器的启发式方法,以及单目标 RL 代理(仅延迟、仅碳排放)。
- 评估指标 – 报告冷启动频率、平均请求延迟、空闲时间碳排放以及综合的延迟‑碳权衡得分。
结果与发现
| 指标 | 华为静态策略 | 启发式 | 仅延迟 RL | 仅碳排放 RL | LACE‑RL |
|---|---|---|---|---|---|
| 冷启动次数 (↓) | 100 %(基线) | –22 % | –41 % | –35 % | ‑52 % |
| 空闲碳排放 (kWh) | 100 %(基线) | –45 % | –60 % | –71 % | ‑77 % |
| 平均延迟 (ms) | 120 | 115 | 108 | 112 | 104 |
| 综合得分(越高越好) | 0.0 | 0.12 | 0.18 | 0.16 | 0.23 |
- 冷启动次数下降超过一半,直接提升了用户感知的延迟。
- 空闲碳排放降低了四分之三,表明 RL 代理在电网碳强度高或工作负载低时会积极释放 Pod。
- LACE‑RL 的 延迟‑碳排放权衡曲线 优于所有基线,并且与了解未来请求的最优解相差不到 5 %,验证了其近乎最优的决策能力。
实际影响
- Serverless providers 可以在编排层中嵌入 LACE‑RL(或类似的 RL 控制器),自动为每个函数调整 keep‑alive 定时器,从而在无需人工调优的情况下降低运营成本和碳足迹。
- DevOps 团队 获得了一个调节旋钮(延迟‑与‑碳权重),可以将平台行为与企业可持续发展目标或 SLA 要求对齐。
- 边缘和混合云部署——碳强度可能出现剧烈波动——尤其受益于能够响应实时电网数据的动态策略。
- 成本建模:降低空闲功耗可直接转化为云账单的可衡量节省,同时更少的冷启动提升终端用户体验,可能进一步推动 serverless 架构的采纳。
限制与未来工作
- 训练数据依赖性:LACE‑RL 依赖历史请求跟踪和准确、及时的电网碳强度数据;噪声或延迟的数据可能会降低性能。
- RL 代理的可扩展性:当前实现使用单一全局模型;将其扩展到成千上万具有异构特性的函数可能需要层次化或联邦学习方法。
- 策略可解释性:深度 RL 策略是黑箱的,导致运维人员难以审计决策——未来工作可以探索可解释 RL 或规则提取技术。
- 跨云通用性:实验仅限于华为公共云的跟踪数据;在其他提供商(AWS、Azure、GCP)以及多区域工作负载上的验证仍是未完成的步骤。
总体而言,本文展示了智能、数据驱动的 keep‑alive 管理能够兼顾低延迟和低碳排放的竞争目标,为更绿色的无服务器计算铺平了道路。
作者
- Bowen Sun
- Christos D. Antonopoulos
- Evgenia Smirni
- Bin Ren
- Nikolaos Bellas
- Spyros Lalis
论文信息
- arXiv ID: 2602.23935v1
- Categories: cs.DC, cs.AI, cs.PF
- Published: 2026年2月27日
- PDF: 下载 PDF