練習跟同事的AI Agent協作

Published: (June 13, 2026 at 12:17 AM EDT)
12 min read
Source: Dev.to

Source: Dev.to

用 AI Agent 控制地端 Kubernetes Cluster:開發與實戰經驗彙整

2026 年 3 月 | 整理自社群公開發表的實戰經驗與開源專案 2025–2026 年,AI Agent 從「實驗性玩具」快速演變為能直接操作生產環境的基礎設施。其中最引人注目的應用之一,就是讓 AI Agent 直接控制地端(on-premise)Kubernetes 叢集——從故障診斷、資源調度到自動修復,全都可以用自然語言驅動。 CNCF 在 2026 年 2 月正式宣布 KubeCon Europe 2026 將舉辦 Agentics Day: MCP + Agents 共置活動,標誌著 Agentic AI 在雲原生領域已從實驗走向生產。本文整理了近期社群中公開發表的實戰經驗、開源工具與架構建議,幫助你快速掌握這個領域的最新進展。 目前社群中有幾個重要的開源專案,各自從不同角度解決「Agent 控制 K8s」的問題: GitHub stars:7.3k+ ⭐ | 語言:Go 定位:將自然語言轉換為精確的 Kubernetes 操作 核心能力:

支援 Gemini、OpenAI、Anthropic、Azure OpenAI、Ollama 等多種 LLM 內建 kubectl 和 bash 工具,可自定義擴展 MCP Server 模式:讓 Claude Code、Cursor 等 AI 客戶端直接操作 K8s MCP Client 模式:連接外部 MCP Server,一條指令串接多個服務 支援 session 持久化,跨次對話維持上下文 參考來源:GoogleCloudPlatform/kubectl-ai GitHub stars:7.5k+ ⭐ | 語言:Go 定位:K8s 叢集掃描、診斷與分類,用簡單的英文告訴你哪裡出了問題 核心能力:

內建 14+ 個預設分析器(Pod、PVC、Service、Ingress、Deployment 等) 支援 OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini 及本地模型 MCP Server 模式(v0.4.14+):提供 12 個工具、3 個資源、3 個互動式排障 prompt 可整合 Claude Desktop 進行 AI 驅動的叢集分析 Operator 模式可在叢集內持續監控 參考來源:k8sgpt-ai/k8sgpt GitHub stars:1.9k+ ⭐ | 語言:Python 定位:生產環境事件調查與根因分析的 SRE Agent 核心能力:

使用 agentic loop 從多個可觀測性來源查詢即時資料 整合 Prometheus、Grafana、Datadog、Loki、Elasticsearch 等 20+ 資料源 雙向告警整合:從 AlertManager / PagerDuty / OpsGenie 拉取告警,分析後寫回 Operator 模式可定期排程執行調查 Petabyte 等級資料處理:Server-side filtering + JSON tree traversal 參考來源:HolmesGPT/holmesgpt GitHub stars:157+ ⭐(快速成長中)| 語言:Go + TypeScript 定位:在 K8s 上運行 AI Agent 艦隊,用 Agent 管理叢集本身 核心架構理念(極具參考價值):

每個 Agent 執行 = 一個臨時 Pod(K8s Job),天然隔離 每個策略 = 一個 CRD(SympoziumPolicy) Skill Sidecar 模式:kubectl、helm 等工具以 sidecar 容器注入,搭配臨時 RBAC RBAC 生命週期管理:Agent 執行時自動建立最小權限的 Role/ClusterRole,結束即銷毀 NetworkPolicy deny-all egress:Agent Pod 預設無法存取外部網路 PersonaPack CRD:預設 Agent 組合包,一鍵啟用整個 Agent 團隊 支援 Telegram / Slack / Discord / WhatsApp 頻道整合 內建 OpenTelemetry 可觀測性 參考來源:AlexsJones/sympozium 台灣開發者 AppleBoy(Bo-Yi Wu)在 2025 KubeSummit 分享了 kubectl-ai 的 MCP 架構與實戰經驗,提出三大核心使用情境: 直接用自然語言問 kubectl-ai「為什麼 Nginx 起不來?」,Agent 會自動: 檢查 Deployment 配置 識別錯誤的 image tag 和不合理的 memory request 給出具體的修復建議 與直接使用 Claude Code 相比,kubectl-ai 更深入理解 K8s 運作機制,能提供更精準的診斷建議。 一行指令啟動 MCP Server: kubectl-ai —mcp-server —mcp-server-mode streamable-http —http-port 9080

然後在 Claude Code 中連接: claude mcp add —transport http kubernetes http://localhost:9080/mcp

這讓任何支援 MCP 的 AI 客戶端都能直接操作你的 K8s 叢集。 傳統做法需要寫複雜腳本。現在只需: kubectl-ai —mcp-client
“掃描 srv-gitea namespace 的 RBAC 權限,找出過度授權的 ServiceAccount, 並在 GAIA 專案中建立 Jira issue,將掃描結果放在描述中”

Agent 自動完成 kubectl 掃描 → 分析 → 呼叫 Jira API 建立問題單。 參考來源:Bo-Yi Wu 的 Blog Sympozium 提出了一套極為嚴謹的安全隔離設計,值得任何想在生產環境運行 AI Agent 的團隊參考:

層級 機制 說明

網路 NetworkPolicy deny-all egress Agent Pod 只有 IPC bridge 能連 NATS,無法存取外部

Pod 沙箱 SecurityContext — runAsNonRoot, UID 1000, read-only root filesystem 最小權限容器

准入控制 SympoziumPolicy 准入 webhook 功能和工具閘門在 Pod 建立前執行

Skill RBAC 每次 AgentRun 獨立的 Role/ClusterRole Skill 宣告需要的 API 權限,Controller 自動佈建、結束即回收

多租戶 Namespaced CRDs + K8s RBAC 標準 K8s RBAC 控制誰能建立 Agent

面向 傳統框架(如 OpenClaw) Sympozium

Agent 執行 共享記憶體、單一 Process 臨時 Pod(K8s Job)

工具隔離 所有工具在同一 Process 每個 Skill 獨立 Sidecar 容器

狀態管理 SQLite + 本地檔案 etcd (CRDs) + PostgreSQL + Object Storage

擴展性 只能垂直擴展 水平擴展——無狀態控制平面 + HPA

可觀測性 應用日誌 kubectl logs + events + OpenTelemetry traces/metrics

k8sgpt 自 v0.4.14 起支援 MCP Server 整合,可直接在 Claude Desktop 中操作: { “mcpServers”: { “k8sgpt”: { “command”: “k8sgpt”, “args”: [“serve”, “—mcp”] } } }

設定完成後,可以在 Claude Desktop 中直接問: 「分析我的 Kubernetes 叢集」 「default namespace 有什麼問題?」 「叢集健康狀態如何?」 k8sgpt 會自動執行內建分析器,結合 LLM 提供人類可讀的診斷結果。 CNCF 在 2026 年 2 月宣布 KubeCon Europe 2026(阿姆斯特丹)將舉辦 Agentics Day: MCP + Agents 共置活動。幾個關鍵訊息: Agentic 系統正快速從實驗進入真正的生產工作負載 MCP 正朝向中立治理下的共享互操作層發展 目標受眾:Platform / SRE / 基礎架構團隊,以及建構 Agent、工具伺服器的開發者 建議提前熟悉 MCP 協議與 Goose 等參考實作 CNCF Ambassador 在分析 K8s 1.35 發布時指出,這個版本的變更讀起來更像是一個 AI 基礎設施版本——Kubernetes 正在成為 AI 的作業系統。 永遠不要給 Agent cluster-admin:使用臨時、最小權限的 RBAC,執行完即銷毀 NetworkPolicy 隔離:Agent Pod 預設 deny-all egress,只允許必要的內部通訊 Admission Webhook 閘門:在 Pod 建立前檢查 Agent 的工具和功能權限 稽核軌跡:所有 Agent 操作都應該有完整的 K8s audit log

場景 推薦工具 理由

即時故障診斷 kubectl-ai / k8sgpt 上手快,單一用途

持續監控 + 根因分析 HolmesGPT(Operator 模式) 深度整合多個可觀測性平台

多 Agent 協作 + 叢集自治 Sympozium 完整的 K8s-native 隔離架構

IDE 整合(開發者體驗) kubectl-ai MCP Server + Claude/Cursor 在 IDE 中直接操作 K8s

LLM 選擇:地端叢集可用 Ollama 或 llama.cpp 部署本地模型,避免敏感資料外洩 Network 考量:若使用雲端 LLM API,確保只有 Agent 的 LLM 呼叫可以出外網 MCP 協議:優先採用 MCP 作為 Agent 與工具之間的標準介面,避免廠商鎖定 可觀測性:從第一天就建立 OpenTelemetry 追蹤,了解 Agent 做了什麼 漸進式導入:先從唯讀診斷開始(k8sgpt analyze),確認可靠後再開放寫入操作 Model Context Protocol (MCP) 正在成為 Agent 與外部系統之間的標準化連接層。它的核心價值是: Build once, integrate across clients:一個 MCP Server 可以同時服務 Claude、Cursor、VS Code 等多個客戶端 工具聚合:kubectl-ai 可同時作為 MCP Server(暴露 K8s 工具)和 MCP Client(消費其他 MCP Server 的工具) 社群治理:MCP 正朝向 CNCF 等中立組織的治理方向發展

工具 Stars 語言 MCP 支援 Operator 模式 適用場景 CNCF 狀態

kubectl-ai 7.3k Go Server + Client ❌ 互動式 K8s 操作 —

k8sgpt 7.5k Go Server (Stdio + HTTP) ✅ (k8sgpt-operator) 叢集診斷分類 —

HolmesGPT 1.9k Python 整合 MCP 工具源 ✅ 生產事件調查 CNCF Sandbox

Sympozium 157 Go + TS Agent 可透過 Skill 使用 ✅(原生 K8s) 多 Agent 協作 + 叢集自治 —

AI Agent 控制 Kubernetes 叢集已不再是概念驗證,而是正在發生的生產實踐。從 kubectl-ai 的自然語言操作、k8sgpt 的智慧診斷、HolmesGPT 的根因分析,到 Sympozium 的完整 K8s-native Agent 平台,社群正在快速建立成熟的工具鏈和最佳實踐。 最值得關注的趨勢是: MCP 協議成為標準:Agent 與工具之間的互操作層正在標準化 安全隔離模式成熟:臨時 RBAC + Sidecar 隔離 + NetworkPolicy 成為共識 從唯讀到讀寫:社群正從「Agent 幫你看問題」演化到「Agent 幫你修問題」 K8s 成為 Agent 的原生運行時:每個 Agent 天然就是一個 Pod,享有 K8s 的全部基礎設施能力 如果你正在評估如何在地端 K8s 叢集中引入 AI Agent,建議從 kubectl-ai 或 k8sgpt 的唯讀模式開始,搭配 MCP 協議逐步擴展能力,同時參考 Sympozium 的安全架構設計你的長期方案。 kubectl-ai — AI powered Kubernetes Assistant(Google Cloud Platform, 7.3k stars) k8sgpt — Giving Kubernetes Superpowers to everyone(k8sgpt-ai, 7.5k stars) HolmesGPT — The CNCF SRE Agent(CNCF Sandbox, 1.9k stars) Sympozium — Run a fleet of AI agents on Kubernetes(k8sgpt 作者新作, 157 stars) From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai(Bo-Yi Wu, KubeSummit 2025) KubeCon Europe 2026 Agentics Day: MCP + Agents(CNCF Blog, 2026/02/20) Kubernetes as AI’s operating system: 1.35 release signals(CNCF Ambassador Blog, 2026/02/23) The great migration: Why every AI platform is converging on Kubernetes(CNCF Blog, 2026/03/05)

0 views
Back to Blog

Related posts

Read more »

The spec is in the wrong place

My day job is at a large tech company. Hundreds of engineering teams, and every one of them is somewhere different on AI adoption. Some are still treating codin...

The Heuristics Say Don't

A culture that only records its disasters ends up with a biased archive. Wars documented, plagues chronicled, collapses catalogued. The quiet decades go unwritt...