Kubernetes WG Serving, AI inference 지원의 성공적인 진전 이후 종료
Source: CNCF Blog
개요
Kubernetes 워킹 그룹(WG) Serving은 Kubernetes에서 AI 추론 스택 개발을 지원하기 위해 만들어졌으며, Kubernetes를 추론 워크로드에 가장 적합한 오케스트레이션 플랫폼으로 만드는 것을 목표로 했습니다. 이 목표는 달성되었으며, 이제 워킹 그룹은 해산됩니다.
주요 성과
- 작업 스트림 및 요구 사항 – 모델 서버, 하드웨어 공급업체, 추론 벤더로부터 요구 사항을 수집하여 추론 워크로드의 구체적인 특성과 트렌드에 대한 공통 이해를 확립했습니다.
- 로드 밸런싱 및 워크로드 – 추론 게이트웨이를 요청 스케줄러로 채택하도록 주도하고 AI 게이트웨이 기능을 표준화하는 데 도움을 주었습니다. 초기 참여자들은 SIG Network에서 에이전트‑네트워킹 작업을 시작했습니다.
- 시작된 프로젝트
- AI 적합성 – Kubernetes AI Conformance 프로파일에 기여했으며, llm‑d는 Kueue, inference gateway, LWS, DRA 등과 같은 구성 요소를 활용해 권장 사항을 Kubernetes 방향과 맞추고 있습니다.
향후 방향
모든 진행 중인 작업은 기존 SIG 또는 다른 워킹 그룹으로 이전될 수 있습니다:
- 자동 스케일링 및 빠른 부트스트랩 – SIG Node 또는 SIG Scheduling에서 논의됩니다.
- 멀티‑호스트 / 멀티‑노드 작업 – SIG Apps(예: LWS 프로젝트)에서 계속됩니다.
- 디바이스 리소스 할당(DRA) – WG Device Management에서 담당합니다.
- 오케스트레이션 주제 – SIG Scheduling 및 SIG Node에서 다룹니다.
구체적인 프로젝트 및 후원
- Gateway API Inference Extension – SIG Network에서 후원하며 해당 SIG에 남게 됩니다.
- Serving Catalog – 작업을 Inference Perf 프로젝트로 옮길 수 있습니다.
- Inference Perf – SIG Scalability에서 후원하며 소유권은 변하지 않습니다.
감사 인사
CNCF는 WG Serving에 참여하고 Kubernetes를 AI 추론 워크로드를 위한 플랫폼으로 발전시키는 데 기여한 모든 기여자들에게 감사를 표합니다.