Kubernetes WG Serving 在成功推进 AI 推理支持后结束

发布: 3天前 (2026年2月26日 GMT+8 21:30)

3 分钟阅读

Source: CNCF Blog

Kubernetes 标志

概览

Kubernetes 工作组（WG）Serving 的创建旨在支持在 Kubernetes 上构建 AI 推理栈，目标是让 Kubernetes 成为推理工作负载的首选编排平台。该目标已实现，工作组现已解散。

工作流与需求 – 收集了模型服务器、硬件供应商和推理厂商的需求，建立了对推理工作负载细节和趋势的共同认知。
负载均衡与工作负载 – 监督了推理网关作为请求调度器的采用，并帮助标准化 AI 网关功能。早期参与者在 SIG Network 中播种了 agent‑networking 工作。
启动的项目
- AIBrix – 现已成为 CNCF 托管项目；其设计受 WG 用例和问题陈述的启发。
- llm‑d – 解决未决的分布式推理挑战（基准测试、最佳实践），并将需求推动至 Kubernetes SIG。
AI 合规性 – 为 Kubernetes AI Conformance 配置文件做出贡献；llm‑d 正在利用 Kueue、推理网关、LWS、DRA 等组件，使建议与 Kubernetes 方向保持一致。

所有正在进行的工作都可以迁移到现有的 SIG 或其他工作组：

CNCF 感谢所有参与 WG Serving 的贡献者，正是他们推动了 Kubernetes 成为 AI 推理工作负载平台的进步。