[TAM Blog] 在 VMware Cloud Foundation® 上实现的 Kubernetes 运维【前篇】
Source: VMware Blog
前言
大家好,我是 Broadcom 的 VCF‑TAM 中山。平时承蒙各位对我司产品的厚爱,衷心感谢。
我日常在第一线支持众多客户的系统运维。通过这些工作,我深切感受到近几年基础设施现场面临的“痛点”正在发生巨大变化。过去,系统的“稳定运行”和“故障处理”等维持基础设施可靠性的任务是主要挑战。然而,随着数字化转型(DX)的加速,业务部门对“快速交付新功能”的需求日益提升,基础设施负责人也被要求提升开发速度并确保服务可靠性,实质上承担了 Site Reliability Engineering(SRE)的角色。
尤其是 Kubernetes 等容器技术的普及,使这一难度呈指数级上升。我本人也多次听到客户抱怨:“Kubernetes 的复杂性让传统运维体系跟不上”“应用与基础设施的责任边界变得模糊”。
本文旨在针对现场基础设施负责人的这些挑战,结合 Broadcom 的方案以及我的个人经验,提供一些解决思路和方案。
目录
基础设施负责人的“痛点”是什么
基础设施负责人的“痛点”究竟源自何处?运营私有云平台(如 VMware Cloud Foundation®(以下简称 VCF)或 VMware vSphere®(以下简称 vSphere))的基础设施人员,是否正面临来自开发部门的“想使用 Kubernetes”的需求,并因此需要提供和运维相应平台的机会急剧增加?
传统的“分配 VM 即完成”任务型职责已经超出,“在已分配的 VM 上运行的 Kubernetes 集群”,甚至 “在其上运行的应用(服务)” 的整体可靠性(Reliability)也落到他们肩上。这不仅是技术栈的变化,更意味着思维方式和角色的转变。换言之,传统的基础设施负责人实际上被迫承担 “平台的 SRE” 角色。除了关注基础设施的稳定性,还必须关注其上运行的服务的业务连续性。
图1. 基础设施负责人的角色扩展
VCF Operations 的“可视化”
(本节正文在原文中继续,这里省略。如有需要可自行补充正文内容。)
后篇展望
(在此放置后篇预告或下一期主题的描述。)
The post [TAM Blog] VMware Cloud Foundation® 实现的 Kubernetes 运维【前篇】 appeared first on VMware Blogs.