我们在 AWS、Azure 和 GCP 上运行了 7,600 多个云供应测试——以下是我们的发现

发布: 19小时前 (2026年4月19日 GMT+8 17:30)

5 分钟阅读

Source: Dev.to

引言

没有人公开这些数据，所以我们自己测量。云厂商会提供正常运行时间 SLA、计费计算器和功能对比表，但他们并未透露实际的资源创建需要多长时间——以及创建失败的频率。为填补这一空白，我们构建了 ProvisioningIQ，它持续真实调用 API（不做模拟），在 AWS、Azure 和 GCP 上创建并随后销毁资源。

方法论

范围：7,600 多次真实的创建测试（虚拟机或无服务器容器）。
频率：每天 3 次，跨每个云的三个地区，自 2026 年 1 月起持续运行。
流程：
1. 创建真实资源（虚拟机或无服务器容器）。
2. 在每个阶段记录时间：API 接受 → 分配中 → 就绪 → 可访问。
3. 记录成功/失败以及失败类别。
4. 立即销毁资源。

容器创建时间

云平台	服务	p50 延迟	p95 延迟	成功率
GCP	Cloud Run	6–8 秒	~20 秒	100 %
AWS	ECS	~20 秒	~40 秒	100 %
Azure	ACI	~40 秒	~60 秒	100 %

观察：在 p50 水平上，GCP Cloud Run 的创建速度比 Azure ACI 快 10–20 倍，并且这种优势在所有测试地区都保持一致。

虚拟机创建时间

云平台	服务	p50 延迟	成功率
AWS	EC2	~34 秒	99.8 %
Azure	VM	72–86 秒	99.7 %
GCP	GCE	~100 秒	98.5 %

观察：AWS 在虚拟机方面领先，拥有最快的 p50 延迟和最高的可靠性。GCP 的虚拟机明显比其容器慢，使得 Cloud Run 成为对延迟敏感工作负载的首选 GCP 方案。

关键要点

值班影响：工程师面对的是 p95，而不是平均值。
- AWS 容器 p95：约 40 秒
- Azure 容器 p95：约 60 秒
- GCP 容器 p95：约 20 秒
事件响应：20 秒的恢复（GCP）与 60 秒的恢复（Azure）之间的差距，可能决定用户是否会注意到故障。
地区差异：不同地区的创建时间差异显著。维护窗口期间，特定地区的创建时间可能临时翻倍，而供应商并不会对这些峰值发出警告。
决策因素：
1. 负载下的自动扩容
2. 灾难恢复速度
3. CI/CD 流水线的速度
更快的创建时间直接转化为可观的工程时间节省（例如，每个团队每年约可恢复 144 小时）。

其他洞察

谈判缺口：云合同通常涵盖价格、存储、网络出站流量和正常运行时间 SLA，但从未涉及创建延迟。业界没有针对该指标的统一承诺或基准。
未来基准：我们正在将测量范围扩展到托管数据库（RDS PostgreSQL、Cloud SQL、Azure Database for PostgreSQL）以及 Terraform 步骤级别的计时，以精准定位各云在创建过程中的耗时环节。

ProvisioningIQ 产品

免费层：每日基准快照，访问地址 provisioningiq.appswireless.com。
专业层：90 天历史记录、p50/p95 趋势、按地区的失败分析以及每日邮件摘要。

关于方法论、失败分类或清理处理有疑问？请在评论区留下。

我们在 AWS、Azure 和 GCP 上运行了 7,600 多个云供应测试——以下是我们的发现

引言

方法论

容器创建时间

虚拟机创建时间

关键要点

其他洞察

ProvisioningIQ 产品

相关文章

我构建了一个工具，可通过浏览器可视化和控制 Docker + K8s 在所有虚拟机上的运行——希望得到实际每天使用此工具的人的反馈

我们将 DevOps 设置从数周缩短到数分钟——了解我们是如何构建 InfraPilot 的

零接触的未来：赋能Telstra迈向完全自主、自愈网络

Pulumi Cloud REST API 文档，现由 OpenAPI 生成