我在 CNCF 蒙特利尔 KubeCon NA 2025 的收获回顾

发布: (2025年12月20日 GMT+8 22:59)
7 min read
原文: Dev.to

Source: Dev.to

(请提供您希望翻译的具体内容,我将为您翻译成简体中文。)

介绍

2025年12月10日,Cloud Native Montreal 社区在亚特兰大举办了 KubeCon NA 2025 的回顾。与传统会议不同,这次活动由社区驱动,包含闪电演讲以及对云原生生态系统未来走向的思考。重点聚焦于生态系统中出现的新模式和经验教训——从 AI 代理和可观测性到 GitOps 以及节能基础设施。

AI 工作负载作为一等公民

一个反复出现的主题是,AI 工作负载现在已经在云原生环境中成为一等公民。传统的可观测性能够回答以下问题:

  • 服务是否正常运行?
  • 延迟是否在 SLO 范围内?

AI 系统引入了新的运维问题:

  • 哪个提示触发了此行为?
  • 哪个模型调用成本高?
  • 为什么该代理执行了特定操作?

类似 OpenLLMetry 的工具通过为大型语言模型和代理工作流添加仪器化来扩展 OpenTelemetry,而 OpenCost 则提供对 Kubernetes 和云支出在不同工作负载、团队和环境中的可视化。

要点:
你无法在无法观测或不了解其财务情况的情况下扩展 AI 系统。可观测性正从仪表盘和警报演进为以代理辅助的运维。

演进中的可观测性

而不是工程师手动关联指标、日志和最近的部署,新的工具旨在:

  • 执行根因分析
  • 对警报进行分流
  • 推荐修复步骤

k8sgptSeraph 以及更新的代理式 SRE 工具等项目,暗示了一个未来:可观测性系统不仅仅展示数据——它们还能主动对数据进行推理。

突出工具

  • k8sgpt – AI 原生的 Kubernetes 故障排查
  • HolmesGPT / Seraph – 自动化根因分析和警报缓解

新兴的基于代理的平台

  • AWS DevOps Agent (Preview)
  • Azure SRE Agent (Preview)
  • Cleric
  • Kube Whisperer

这些代理将日志、指标、部署和事件进行关联,以帮助值班工程师并降低警报疲劳。它们并不取代工程师,而是改变工作流程:减少搜索信号的时间,增加做出明智决策的时间。

Cyclops:Kubernetes 的结构化抽象

Cyclops 是一个开源平台,通过用结构化、基于表单的抽象取代原始 YAML,简化了 Kubernetes 的使用。

核心概念

  • Modules – 对应用所需的所有 Kubernetes 资源进行逻辑分组
  • Templates – 将模块输入映射为有效的 Kubernetes 清单的映射规则

与 Helm 的集成

  1. Helm Chart 使用模板化的 YAML 定义资源(Deployment、Service、Ingress 等)。
  2. Cyclops 包装这些 Chart,并将它们的 values 以经过验证的表单形式呈现,而不是自由文本的 YAML 编辑。
  3. 用户填写表单后,Cyclops 将底层的 Helm 模板渲染为有效的清单。

Cyclops 还通过 Model Context Protocol (MCP) 服务器支持 AI 驱动的运维,允许代理使用自然语言而非直接访问集群来管理应用。

Caution: 由 AI 生成的代码应视为不可信。安全风险仍然存在,随着抽象层次的提升,防护措施、验证和测试变得更加关键。

GitOps 案例研究

一个实用的 GitOps 案例研究强调,仓库结构与工具同等重要。讨论的关键原则:

  • 将配置结构与团队所有权对齐
  • 在保持环境明确的同时集中管理配置
  • 将相关文件放在一起(“邻近性很重要”)
  • 优化开发者体验,而不仅仅是正确性

使用 ArgoCD,部署变得自动化、可审计且一致——前提是将 GitOps 视为技术和组织设计的双重因素。

Kepler:能源感知可观测性

Kepler 是一个 CNCF 项目,能够在容器层面公开能源消耗情况。

功能

  • 细粒度的容器和进程功耗指标
  • 支持 CPU、GPU 以及异构硬件
  • 使用 eBPF 实现低开销
  • 与现有可观测性栈集成

随着 GPU 密集型和 AI 工作负载的增长,能源使用和冷却成本已成为运营关注点。

核心信息: 可持续性现在是平台工程的一部分,而不仅仅是硬件规划。

Summary

这篇 KubeCon 回顾并不是要记住各种工具,而是要把握发展方向。在各场演讲中,出现了以下一致的转变:

  • 从被动监控转向 AI 辅助运维
  • 从原始 YAML 转向安全、带有意见的抽象层
  • 从成本意外转向成本感知平台
  • 从仅关注性能的指标转向关注能耗的基础设施

像这样的社区驱动活动有助于将各个技术连接起来,形成对云原生系统未来走向的统一认知模型。

Back to Blog

相关文章

阅读更多 »

仓库利用的权威指南

引言 仓库本质上只是一个 3‑D 盒子。利用率只是衡量你实际使用了该盒子多少的指标。虽然物流 c...