Kubernetes WG Serving 在成功推进 AI 推理支持后结束
发布: (2026年2月26日 GMT+8 21:30)
3 分钟阅读
原文: CNCF Blog
Source: CNCF Blog
概览
Kubernetes 工作组(WG)Serving 的创建旨在支持在 Kubernetes 上构建 AI 推理栈,目标是让 Kubernetes 成为推理工作负载的首选编排平台。该目标已实现,工作组现已解散。
关键成果
- 工作流与需求 – 收集了模型服务器、硬件供应商和推理厂商的需求,建立了对推理工作负载细节和趋势的共同认知。
- 负载均衡与工作负载 – 监督了推理网关作为请求调度器的采用,并帮助标准化 AI 网关功能。早期参与者在 SIG Network 中播种了 agent‑networking 工作。
- 启动的项目
- AI 合规性 – 为 Kubernetes AI Conformance 配置文件做出贡献;llm‑d 正在利用 Kueue、推理网关、LWS、DRA 等组件,使建议与 Kubernetes 方向保持一致。
未来方向
所有正在进行的工作都可以迁移到现有的 SIG 或其他工作组:
- 自动伸缩与快速启动 – 在 SIG Node 或 SIG Scheduling 中讨论。
- 多主机 / 多节点工作 – 在 SIG Apps(例如 LWS 项目)中继续。
- 设备资源分配(DRA) – 由 WG Device Management 负责。
- 编排主题 – 由 SIG Scheduling 和 SIG Node 覆盖。
具体项目与赞助
- Gateway API 推理扩展 – 由 SIG Network 赞助并将继续留在该 SIG。
- Serving Catalog – 工作可转移至 Inference Perf 项目。
- Inference Perf – 由 SIG Scalability 赞助;所有权保持不变。
致谢
CNCF 感谢所有参与 WG Serving 的贡献者,正是他们推动了 Kubernetes 成为 AI 推理工作负载平台的进步。