[Paper] 评估用于虚拟机放置的动态向量装箱

发布: (2026年2月16日 GMT+8 20:51)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.14704v1

概述

本文解决了云数据中心中最紧迫的运营问题之一:如何放置虚拟机(VM),以使物理服务器的使用效率最大化。作者将 VM 放置问题建模为 动态向量装箱(Dynamic Vector Bin Packing,DVBP)问题,目标是最小化服务器的总活跃时间,并在三种现实的信息场景下评估了一系列算法——包括经典算法、最新设计的算法以及学习增强的变体——分别对应未知生命周期(非先知)、已知生命周期(先知)和预测生命周期(学习增强)。在真实的 Azure 追踪数据上的实验揭示了哪些算法思路在生产规模环境中真正有效。

关键贡献

  • 全面基准,对最先进的 MinUsageTime DVBP 算法在三种在线设置(非先知、先知、学习增强)下进行评估。
  • 引入多种新算法和改进,如自适应打包启发式和混合先知‑学习策略。
  • 大规模实证评估,使用 Microsoft Azure 工作负载追踪,提供 DVBP 在云环境中的首个真实世界性能数据。
  • 深入分析了始终优于其他算法的结构,突出实用的设计模式(例如,提前释放打包、时长感知排序)。
  • 为实践者提供指南,根据时长信息的可用性选择和调优 VM 放置策略。

方法论

  1. Problem Formalization – 作者将 VM 放置建模为 Dynamic Vector Bin Packing(动态向量装箱)问题,其中每个 VM 是一个多维物品(CPU、内存等),具有开始时间和生命周期。目标 MinUsageTime 是最小化所有物理机器的活跃时间总和。
  2. Algorithmic Landscape – 他们收集了文献中的已有算法(例如 First‑Fit Decreasing、Best‑Fit、Harmonic‑Based),并实现了三种新变体:
    • Adaptive First‑Fit (AFF) – 根据最近的装箱密度动态调整箱子选择阈值。
    • Hybrid Clairvoyant‑Learning (HCL) – 将精确的生命周期信息(若可用)与对未知作业的机器学习预测相结合。
    • Release‑Aware Packing (RAP) – 优先装箱即将释放资源的 VM,以降低碎片化。
  3. Online Settings
    • Non‑clairvoyant:生命周期信息被隐藏,必须在没有未来信息的情况下做出决策。
    • Clairvoyant:在放置时已知真实的生命周期(理想化情形)。
    • Learning‑augmented:使用一个预测器(基于历史 Azure 数据训练)提供带有界误差的生命周期估计。
  4. Experimental Setup – 团队在数周的 Azure VM 请求日志上运行每种算法,复现真实的到达模式、资源需求以及物理主机的异构性。捕获的指标包括服务器总活跃时间、活跃服务器数量以及运行时开销。
  5. Statistical Analysis – 结果在多个随机种子上进行聚合,并使用显著性检验(配对 t 检验)来确认观察到的性能差距。

结果与发现

SettingBest Performing AlgorithmAvg. Reduction vs. Baseline (First‑Fit)
Non‑clairvoyantRAP (Release‑Aware Packing)12.4 %
ClairvoyantHCL (clairvoyant branch)18.7 %
Learning‑augmentedHCL (learning‑augmented branch)15.3 %
  • Release‑Aware Packing 在生命周期未知时始终优于通用启发式算法,因为它主动将短寿命 VM 归为一组,从而更早释放箱子。
  • 在全知情境下,Hybrid Clairvoyant‑Learning(直接使用精确的生命周期)实现了最大的节省,验证了完美时长知识的理论优势。
  • 当仅有预测时,只要预测器的平均绝对误差低于真实生命周期的约 20%,HCL 仍然优于所有非全知基线。
  • 新算法的运行时开销适中(每个 VM 放置 ≤ 5 ms),使其适用于实时调度器。
  • 实验还显示,过于复杂的启发式算法收益递减;简单的时长感知排序通常已能捕获大部分收益。

实际影响

  • 云运营商 可以在现有调度器(例如 OpenStack Nova、使用自定义调度器扩展的 Kubernetes)中采用 Release‑Aware Packing,在无需额外数据收集的情况下将服务器活跃时间削减 10‑15 %。
  • 预测分析团队 可以集成轻量级寿命预测器(例如在历史 VM 日志上训练的梯度提升树),以实现 HCL 的 learning‑augmented 分支,在仅有适度预测误差的情况下获得大部分先知式收益。
  • 对成本敏感的企业 可以将活跃时间的减少转化为更低的电费和更长的硬件寿命,直接影响利润。
  • 工具 – 作者将实现以开源 Python 库的形式发布,包含 Azure 跟踪加载器,允许开发者对自己的工作负载进行基准测试或将启发式算法嵌入自定义编排器。
  • 边缘与雾计算 – 相同的 DVBP 公式适用于资源受限的边缘节点;关于提前释放打包的洞察在电力预算紧张的场景中特别有价值。

限制与未来工作

  • 预测器质量依赖 – 学习增强的收益依赖于相对准确的生命周期预测;论文未探讨处理高度噪声预测的鲁棒方法。
  • 静态资源配置 – 假设虚拟机的 CPU/内存需求是固定的;未对动态伸缩(例如自动伸缩组)进行建模。
  • 单数据中心范围 – 实验仅限于 Azure 内部数据中心的追踪数据;跨区域或多云场景可能引入额外约束(网络延迟、放置组)。
  • 作者提出的未来方向 包括:
    1. 将模型扩展以纳入网络带宽和存储 I/O 作为额外维度。
    2. 探索能够在线适应打包策略的强化学习代理。
    3. 评估在做出放置决策后重新打包虚拟机时迁移成本的影响。

作者

  • Zong Yu Lee
  • Xueyan Tang

论文信息

  • arXiv ID: 2602.14704v1
  • 分类: cs.DC, cs.DS
  • 发表时间: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »