練習跟同事的AI Agent協作

Published: 1 day ago (June 13, 2026 at 12:17 AM EDT)

12 min read

Source: Dev.to

用 AI Agent 控制地端 Kubernetes Cluster：開發與實戰經驗彙整

2026 年 3 月 | 整理自社群公開發表的實戰經驗與開源專案 2025–2026 年，AI Agent 從「實驗性玩具」快速演變為能直接操作生產環境的基礎設施。其中最引人注目的應用之一，就是讓 AI Agent 直接控制地端（on-premise）Kubernetes 叢集——從故障診斷、資源調度到自動修復，全都可以用自然語言驅動。 CNCF 在 2026 年 2 月正式宣布 KubeCon Europe 2026 將舉辦 Agentics Day: MCP + Agents 共置活動，標誌著 Agentic AI 在雲原生領域已從實驗走向生產。本文整理了近期社群中公開發表的實戰經驗、開源工具與架構建議，幫助你快速掌握這個領域的最新進展。目前社群中有幾個重要的開源專案，各自從不同角度解決「Agent 控制 K8s」的問題： GitHub stars：7.3k+ ⭐ | 語言：Go 定位：將自然語言轉換為精確的 Kubernetes 操作核心能力：

支援 Gemini、OpenAI、Anthropic、Azure OpenAI、Ollama 等多種 LLM 內建 kubectl 和 bash 工具，可自定義擴展 MCP Server 模式：讓 Claude Code、Cursor 等 AI 客戶端直接操作 K8s MCP Client 模式：連接外部 MCP Server，一條指令串接多個服務支援 session 持久化，跨次對話維持上下文參考來源：GoogleCloudPlatform/kubectl-ai GitHub stars：7.5k+ ⭐ | 語言：Go 定位：K8s 叢集掃描、診斷與分類，用簡單的英文告訴你哪裡出了問題核心能力：

內建 14+ 個預設分析器（Pod、PVC、Service、Ingress、Deployment 等）支援 OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini 及本地模型 MCP Server 模式（v0.4.14+）：提供 12 個工具、3 個資源、3 個互動式排障 prompt 可整合 Claude Desktop 進行 AI 驅動的叢集分析 Operator 模式可在叢集內持續監控參考來源：k8sgpt-ai/k8sgpt GitHub stars：1.9k+ ⭐ | 語言：Python 定位：生產環境事件調查與根因分析的 SRE Agent 核心能力：

使用 agentic loop 從多個可觀測性來源查詢即時資料整合 Prometheus、Grafana、Datadog、Loki、Elasticsearch 等 20+ 資料源雙向告警整合：從 AlertManager / PagerDuty / OpsGenie 拉取告警，分析後寫回 Operator 模式可定期排程執行調查 Petabyte 等級資料處理：Server-side filtering + JSON tree traversal 參考來源：HolmesGPT/holmesgpt GitHub stars：157+ ⭐（快速成長中）| 語言：Go + TypeScript 定位：在 K8s 上運行 AI Agent 艦隊，用 Agent 管理叢集本身核心架構理念（極具參考價值）：

每個 Agent 執行 = 一個臨時 Pod（K8s Job），天然隔離每個策略 = 一個 CRD（SympoziumPolicy） Skill Sidecar 模式：kubectl、helm 等工具以 sidecar 容器注入，搭配臨時 RBAC RBAC 生命週期管理：Agent 執行時自動建立最小權限的 Role/ClusterRole，結束即銷毀 NetworkPolicy deny-all egress：Agent Pod 預設無法存取外部網路 PersonaPack CRD：預設 Agent 組合包，一鍵啟用整個 Agent 團隊支援 Telegram / Slack / Discord / WhatsApp 頻道整合內建 OpenTelemetry 可觀測性參考來源：AlexsJones/sympozium 台灣開發者 AppleBoy（Bo-Yi Wu）在 2025 KubeSummit 分享了 kubectl-ai 的 MCP 架構與實戰經驗，提出三大核心使用情境：直接用自然語言問 kubectl-ai「為什麼 Nginx 起不來？」，Agent 會自動：檢查 Deployment 配置識別錯誤的 image tag 和不合理的 memory request 給出具體的修復建議與直接使用 Claude Code 相比，kubectl-ai 更深入理解 K8s 運作機制，能提供更精準的診斷建議。一行指令啟動 MCP Server： kubectl-ai —mcp-server —mcp-server-mode streamable-http —http-port 9080

然後在 Claude Code 中連接： claude mcp add —transport http kubernetes http://localhost:9080/mcp

這讓任何支援 MCP 的 AI 客戶端都能直接操作你的 K8s 叢集。傳統做法需要寫複雜腳本。現在只需： kubectl-ai —mcp-client
“掃描 srv-gitea namespace 的 RBAC 權限，找出過度授權的 ServiceAccount，並在 GAIA 專案中建立 Jira issue，將掃描結果放在描述中”

Agent 自動完成 kubectl 掃描 → 分析 → 呼叫 Jira API 建立問題單。參考來源：Bo-Yi Wu 的 Blog Sympozium 提出了一套極為嚴謹的安全隔離設計，值得任何想在生產環境運行 AI Agent 的團隊參考：

層級機制說明

網路 NetworkPolicy deny-all egress Agent Pod 只有 IPC bridge 能連 NATS，無法存取外部

Pod 沙箱 SecurityContext — runAsNonRoot, UID 1000, read-only root filesystem 最小權限容器

准入控制 SympoziumPolicy 准入 webhook 功能和工具閘門在 Pod 建立前執行

Skill RBAC 每次 AgentRun 獨立的 Role/ClusterRole Skill 宣告需要的 API 權限，Controller 自動佈建、結束即回收

多租戶 Namespaced CRDs + K8s RBAC 標準 K8s RBAC 控制誰能建立 Agent

面向傳統框架（如 OpenClaw） Sympozium

Agent 執行共享記憶體、單一 Process 臨時 Pod（K8s Job）

工具隔離所有工具在同一 Process 每個 Skill 獨立 Sidecar 容器

狀態管理 SQLite + 本地檔案 etcd (CRDs) + PostgreSQL + Object Storage

擴展性只能垂直擴展水平擴展——無狀態控制平面 + HPA

可觀測性應用日誌 kubectl logs + events + OpenTelemetry traces/metrics

k8sgpt 自 v0.4.14 起支援 MCP Server 整合，可直接在 Claude Desktop 中操作： { “mcpServers”: { “k8sgpt”: { “command”: “k8sgpt”, “args”: [“serve”, “—mcp”] } } }

設定完成後，可以在 Claude Desktop 中直接問：「分析我的 Kubernetes 叢集」「default namespace 有什麼問題？」「叢集健康狀態如何？」 k8sgpt 會自動執行內建分析器，結合 LLM 提供人類可讀的診斷結果。 CNCF 在 2026 年 2 月宣布 KubeCon Europe 2026（阿姆斯特丹）將舉辦 Agentics Day: MCP + Agents 共置活動。幾個關鍵訊息： Agentic 系統正快速從實驗進入真正的生產工作負載 MCP 正朝向中立治理下的共享互操作層發展目標受眾：Platform / SRE / 基礎架構團隊，以及建構 Agent、工具伺服器的開發者建議提前熟悉 MCP 協議與 Goose 等參考實作 CNCF Ambassador 在分析 K8s 1.35 發布時指出，這個版本的變更讀起來更像是一個 AI 基礎設施版本——Kubernetes 正在成為 AI 的作業系統。永遠不要給 Agent cluster-admin：使用臨時、最小權限的 RBAC，執行完即銷毀 NetworkPolicy 隔離：Agent Pod 預設 deny-all egress，只允許必要的內部通訊 Admission Webhook 閘門：在 Pod 建立前檢查 Agent 的工具和功能權限稽核軌跡：所有 Agent 操作都應該有完整的 K8s audit log

場景推薦工具理由

即時故障診斷 kubectl-ai / k8sgpt 上手快，單一用途

持續監控 + 根因分析 HolmesGPT（Operator 模式）深度整合多個可觀測性平台

多 Agent 協作 + 叢集自治 Sympozium 完整的 K8s-native 隔離架構

IDE 整合（開發者體驗） kubectl-ai MCP Server + Claude/Cursor 在 IDE 中直接操作 K8s

LLM 選擇：地端叢集可用 Ollama 或 llama.cpp 部署本地模型，避免敏感資料外洩 Network 考量：若使用雲端 LLM API，確保只有 Agent 的 LLM 呼叫可以出外網 MCP 協議：優先採用 MCP 作為 Agent 與工具之間的標準介面，避免廠商鎖定可觀測性：從第一天就建立 OpenTelemetry 追蹤，了解 Agent 做了什麼漸進式導入：先從唯讀診斷開始（k8sgpt analyze），確認可靠後再開放寫入操作 Model Context Protocol (MCP) 正在成為 Agent 與外部系統之間的標準化連接層。它的核心價值是： Build once, integrate across clients：一個 MCP Server 可以同時服務 Claude、Cursor、VS Code 等多個客戶端工具聚合：kubectl-ai 可同時作為 MCP Server（暴露 K8s 工具）和 MCP Client（消費其他 MCP Server 的工具）社群治理：MCP 正朝向 CNCF 等中立組織的治理方向發展

工具 Stars 語言 MCP 支援 Operator 模式適用場景 CNCF 狀態

kubectl-ai 7.3k Go Server + Client ❌ 互動式 K8s 操作 —

k8sgpt 7.5k Go Server (Stdio + HTTP) ✅ (k8sgpt-operator) 叢集診斷分類 —

HolmesGPT 1.9k Python 整合 MCP 工具源 ✅ 生產事件調查 CNCF Sandbox

Sympozium 157 Go + TS Agent 可透過 Skill 使用 ✅（原生 K8s）多 Agent 協作 + 叢集自治 —

AI Agent 控制 Kubernetes 叢集已不再是概念驗證，而是正在發生的生產實踐。從 kubectl-ai 的自然語言操作、k8sgpt 的智慧診斷、HolmesGPT 的根因分析，到 Sympozium 的完整 K8s-native Agent 平台，社群正在快速建立成熟的工具鏈和最佳實踐。最值得關注的趨勢是： MCP 協議成為標準：Agent 與工具之間的互操作層正在標準化安全隔離模式成熟：臨時 RBAC + Sidecar 隔離 + NetworkPolicy 成為共識從唯讀到讀寫：社群正從「Agent 幫你看問題」演化到「Agent 幫你修問題」 K8s 成為 Agent 的原生運行時：每個 Agent 天然就是一個 Pod，享有 K8s 的全部基礎設施能力如果你正在評估如何在地端 K8s 叢集中引入 AI Agent，建議從 kubectl-ai 或 k8sgpt 的唯讀模式開始，搭配 MCP 協議逐步擴展能力，同時參考 Sympozium 的安全架構設計你的長期方案。 kubectl-ai — AI powered Kubernetes Assistant（Google Cloud Platform, 7.3k stars） k8sgpt — Giving Kubernetes Superpowers to everyone（k8sgpt-ai, 7.5k stars） HolmesGPT — The CNCF SRE Agent（CNCF Sandbox, 1.9k stars） Sympozium — Run a fleet of AI agents on Kubernetes（k8sgpt 作者新作, 157 stars） From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai（Bo-Yi Wu, KubeSummit 2025） KubeCon Europe 2026 Agentics Day: MCP + Agents（CNCF Blog, 2026/02/20） Kubernetes as AI’s operating system: 1.35 release signals（CNCF Ambassador Blog, 2026/02/23） The great migration: Why every AI platform is converging on Kubernetes（CNCF Blog, 2026/03/05）

練習跟同事的AI Agent協作

Related posts

Launching BonVoyage: From Travel Problem to Public Launch

The spec is in the wrong place

Incident Automation: What to Automate, What to Leave to Humans

The Heuristics Say Don't