[Paper] 公共云的 ML 增强 VM 分配器的性能分析器

发布: 2天前 (2025年12月9日 GMT+8 01:36)

7 min read

原文: arXiv

Source: arXiv - 2512.07750v1

概览

本文介绍了 SANJESH，一个性能分析框架，使云运营商能够推理嵌入生产 VM 分配流水线的多个机器学习（ML）模型的影响。通过将高层次的 “假设” 问题转化为双层优化问题，SANJESH 揭示了传统模拟器遗漏的隐藏性能退化——在真实的 VM 放置系统中表现出高达 4 倍更差的结果。

关键贡献

SANJESH 平台：首个能够回答广泛性能查询的 ML 增强云服务工具。
双层优化公式：捕获云资源管理器（外层）与嵌入的 ML 模型（内层）之间的交互。
快速求解技术：新颖的分解与剪枝方法，使优化在分钟内完成，而先前方法在 24 小时后仍未收敛。
实证验证：在使用多个 ML 预测器（如工作负载预测、迁移成本估计）的生产级 VM 分配器上进行验证。SANJESH 揭示了组合的 ML 决策导致 约 4 倍性能惩罚 的情形，相比基准模拟。
开源原型（随论文发布），可适配其他 ML 驱动的云组件。

方法论

系统建模 – 作者将云的 VM 放置逻辑表示为确定性优化（例如，最小化活跃服务器数量）。在此内部，每个 ML 模型被视为黑箱函数，预测诸如未来 CPU 需求或迁移开销等量。
双层问题 – 外层优化选择放置决策；内层优化在给定这些决策的情况下捕获 ML 模型的预测。整体目标是最大化性能指标（如吞吐量、成本），同时满足约束（容量、SLA）。
问题转化 – 通过对某些模型输出线性化并应用灵敏度分析，双层问题被转换为单层混合整数规划（MIP）。
加速技巧 –
- 约束剪枝 早期剔除无关变量。
- 热启动启发式 将快速模拟得到的近似最优解作为初始解输入 MIP 求解器。
- 并行分解 同时求解独立子问题。
场景生成 – 用户指定 “假设” 查询（例如 “如果工作负载预测误差为 10 % 会怎样？”）。SANJESH 自动创建相应的优化实例并返回最坏情况的性能影响。

结果与发现

指标	基准模拟	SANJESH 分析
所需服务器	120	138 (≈ 15 % 增加)
实时迁移频率	每小时 3 次	每小时 12 次 (≈ 4×)
总体成本	$1.2 M/yr	$1.8 M/yr
求解器时间	> 24 h（未收敛）	< 10 min（最优）

隐藏交互：工作负载预测模型与迁移成本估计器的组合导致分配器过度压缩服务器，触发频繁迁移，而模拟因为假设预测完美而未捕获此现象。
可扩展性：得益于剪枝和分解步骤，SANJESH 能处理 5 k 台服务器、5 万台 VM 的真实集群，且不会出现内存爆炸。
灵敏度：预测精度的微小扰动（±5 %）即可使系统从稳定转为抖动，凸显了鲁棒 ML 模型设计的必要性。

实际意义

根因诊断：运营商现在可以询问 “哪个 ML 模型在拖累性能？” 并得到具体答案，从而进行有针对性的模型再训练或重新设计。
鲁棒供给：通过暴露最坏情况，容量规划者能够仅在真正需要的地方预留额外余量，降低过度供给成本。
模型感知调度：云平台（如 AWS、Azure、GCP）可将 SANJESH 风格的检查集成到 CI 流水线中，以在新 ML 驱动特性上线前进行验证。
SLA 执行：了解迁移频率上限有助于保证对 VM 迁移敏感的低延迟工作负载。
通用化：双层框架可复用于其他 ML 增强服务，如自动扩缩、负载均衡或能耗感知调度。

局限性与未来工作

黑箱假设：SANJESH 将 ML 模型视为不透明函数；若能利用更丰富的内部信息（如置信区间）将提升准确性。
静态工作负载痕迹：实验基于回放的痕迹；实际部署需要处理真正在线、非平稳的工作负载。
可扩展性上限：虽然原型已能扩展到数千台服务器，但超大规模超大数据中心（数十万节点）仍可能挑战 MIP 求解器。
未来方向：作者建议包括集成概率模型输出、扩展到多云联邦、以及基于 SANJESH 诊断自动化模型再训练循环等。

作者

Roozbeh Bostandoost
Pooria Namyar
Siva Kesava Reddy Kakarla
Ryan Beckett
Santiago Segarra
Eli Cortez
Ankur Mallick
Kevin Hsieh
Rodrigo Fonseca
Mohammad Hajiesmaili
Behnaz Arzani

论文信息

arXiv ID: 2512.07750v1
分类: cs.DC
发布日期: 2025 年 12 月 8 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 链路共享背压路由在无线多跳网络中

Backpressure (BP) 路由和调度是一种成熟的资源分配方法，适用于无线多跳网络，以其完全分布式操作而著称……

[Paper] 可恢复的无锁锁

本文首次提出一种同时引入 lock-freedom 和 recoverability 的转换。我们的转换从 lock-based 实现开始，……

[Paper] 同构 GPU 上对慢节点容忍且具弹性的 DL 训练

尽管同构 GPU 基础的深度学习（DL）训练非常流行，但拖慢节点（stragglers）的普遍性、原因和影响，以及现有方法的有效性……

[Paper] PHWSOA：一种基于Pareto的混合鲸‑海鸥调度用于云计算中的多目标任务

任务调度是云计算中的一项关键研究挑战，云计算是一项在各行业广泛采用的变革性技术。虽然已有大量的调度 …