[Paper] SpotVista：可用性感知的可靠且成本高效的多节点 Spot 实例推荐系统

发布: 1天前 (2026年4月27日 GMT+8 22:41)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24548v1

概述

SpotVista 解决了在公共云上运行大规模工作负载的用户面临的一个紧迫问题：如何让多节点 Spot 车队既便宜又可靠。通过挖掘云提供商现在公开的最新 “即时可用性” 数据，作者们设计了一种推荐引擎，能够在跨区域和实例类型的 Spot 实例中挑选出成本效益最高的组合，同时明确考虑同时中断的风险。

大规模多节点可用性数据集 – 通过巧妙绕过 API 查询限制，捕获数十个地区的实时 Spot 实例健康状态。
多节点 Spot 行为的实证分析 – 揭示中断模式与单节点情况的差异，以及为何现有模型的朴素扩展会失效。
考虑可用性的推荐算法 – 同时优化成本和预期正常运行时间，生成“资源池”而非单一实例类型。
广泛的真实场景验证 – 超过 1,000 次中断实验表明 SpotVista 在稳定性和成本方面均优于先前的最先进方案（SpotVerse）和 AWS SpotFleet。
开源工具 – 数据收集流水线和推荐引擎已发布，以实现可重复性并供社区扩展。

数据收集 – 团队持续轮询公共的“即时可用性”端点（例如 AWS 的 DescribeSpotInstanceRequests，配合新的 InstanceAvailability 标志），覆盖多个区域。为遵守供应商设定的请求上限，他们对查询进行错峰、缓存结果，并在 实例族（而非单个实例 ID）的粒度上进行聚合。
可用性建模 – 利用收集到的时间序列数据，计算每个区域、每种实例类型的中断概率，并关键性地评估所有多节点作业的节点同时被中断的联合概率。该模型采用基于 copula 的方法，以捕捉同一区域或跨区域节点之间的相关性。
成本‑收益优化 – 对于用户指定的工作负载（例如 8 vCPU、32 GB RAM，分布在 4 台节点），SpotVista 列举可行的实例类型组合，估算预期的每小时成本（spot 价格 × 使用量）和预期可用性（1 – 联合中断概率），随后在成本预算下（或相反）挑选出使可用性最大化的 Pareto‑optimal 集合。
推荐交付 – 最终输出为一个 “资源池”——包含实例类型、数量和区域的列表——可直接供 Kubernetes Cluster Autoscaler 或 AWS Spot Fleet 等编排工具使用。

关键要点

Kubernetes 与无服务器运营商 – SpotVista 可以向自动伸缩器提供经过审查的节点组列表，减少 pod 驱逐并提升 SLA 的遵守率。
数据密集型流水线 – Spark、Flink 或 Hadoop 集群可以在混合 Spot 池上部署，该池保证高可用性检查点，同时将计算费用削减最高可达 25%。
CI/CD 与测试环境 – 团队可以在 Spot 机群上快速创建大规模临时测试平台，而无需担心运行中途被整体关闭。
多云策略 – 由于该方法仅需公开的可用性信息源，可扩展至 GCP Preemptible VM 或 Azure Spot VM，实现跨供应商的成本套利。
工具集成 – 开源推荐引擎可以封装为 Terraform 模块或 Helm Chart，使 DevOps 能够将成本‑可用性权衡直接嵌入 IaC 流程。