Kubernetes WG Serving 在成功推进 AI 推理支持后结束

发布: (2026年2月26日 GMT+8 21:30)
3 分钟阅读
原文: CNCF Blog

Source: CNCF Blog

Kubernetes 标志

概览

Kubernetes 工作组(WG)Serving 的创建旨在支持在 Kubernetes 上构建 AI 推理栈,目标是让 Kubernetes 成为推理工作负载的首选编排平台。该目标已实现,工作组现已解散。

关键成果

  • 工作流与需求 – 收集了模型服务器、硬件供应商和推理厂商的需求,建立了对推理工作负载细节和趋势的共同认知。
  • 负载均衡与工作负载 – 监督了推理网关作为请求调度器的采用,并帮助标准化 AI 网关功能。早期参与者在 SIG Network 中播种了 agent‑networking 工作。
  • 启动的项目
    • AIBrix – 现已成为 CNCF 托管项目;其设计受 WG 用例和问题陈述的启发。
    • llm‑d – 解决未决的分布式推理挑战(基准测试、最佳实践),并将需求推动至 Kubernetes SIG。
  • AI 合规性 – 为 Kubernetes AI Conformance 配置文件做出贡献;llm‑d 正在利用 Kueue、推理网关、LWS、DRA 等组件,使建议与 Kubernetes 方向保持一致。

未来方向

所有正在进行的工作都可以迁移到现有的 SIG 或其他工作组:

  • 自动伸缩与快速启动 – 在 SIG NodeSIG Scheduling 中讨论。
  • 多主机 / 多节点工作 – 在 SIG Apps(例如 LWS 项目)中继续。
  • 设备资源分配(DRA) – 由 WG Device Management 负责。
  • 编排主题 – 由 SIG SchedulingSIG Node 覆盖。

具体项目与赞助

  • Gateway API 推理扩展 – 由 SIG Network 赞助并将继续留在该 SIG。
  • Serving Catalog – 工作可转移至 Inference Perf 项目。
  • Inference Perf – 由 SIG Scalability 赞助;所有权保持不变。

致谢

CNCF 感谢所有参与 WG Serving 的贡献者,正是他们推动了 Kubernetes 成为 AI 推理工作负载平台的进步。

0 浏览
Back to Blog

相关文章

阅读更多 »

vCluster(虚拟集群)

驯服 Kubernetes 野兽:您的 vCluster 虚拟集群指南 曾经觉得在管理 Kube 时自己像在玩弄一千把燃烧的链锯吗……