[Paper] 集群工作负载分配：使用自然语言处理的语义软亲和

发布: 3周前 (2026年1月14日 GMT+8 16:36)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.09282v1

概述

本文提出了一种在 Kubernetes 集群上调度工作负载的新方法，允许用户用自然语言表达放置偏好。通过将大型语言模型（LLM）接入 Kubernetes 调度器，系统将自然语言的“提示”转换为软亲和规则，从而显著降低 DevOps 团队和开发者在微调 Pod 放置时的专业门槛。

意图驱动调度：引入一种语义“软亲和”模型，其中分配提示使用自然语言编写，而不是 YAML 编码的选择器。
LLM 驱动的调度器扩展：实现了一个 Kubernetes 调度器扩展器，调用 LLM（通过 AWS Bedrock）即时解析提示并生成亲和/反亲和约束。
集群状态缓存：添加了一个轻量级的节点资源缓存，使 LLM 调用保持无状态，并足够快速以用于调度决策。
实证评估：展示了在顶级 LLM（Amazon Nova Pro/Premier、Mistral Pixtral Large）中解析意图的子集准确率超过 95 %，并在六个测试场景中证明了其放置质量能够达到或超越手工编写的 Kubernetes 配置。
开源原型：提供了一个参考实现，可直接嵌入现有集群进行实验。

注解设计 – 开发者在 pod 规范中使用自由形式的 intent 字段进行注解（例如 “在至少拥有 8 GiB RAM 的节点上运行此服务，并避免在托管数据库 pod 的节点上运行”）。
调度器扩展钩子 – 当默认调度器进入 “filter” 阶段时，扩展器会将 intent 字符串以及当前集群状态的快照转发给 LLM 接口。
意图分析器 – LLM 解析自然语言，提取约束（CPU、内存、节点标签、共址偏好等），并返回结构化的 JSON，扩展器再将其转换为 Kubernetes 的 nodeAffinity、podAffinity 和 podAntiAffinity 对象。
缓存层 – 为避免在每次请求时拉取完整的集群状态，使用 Kubernetes watch API 维护一个轻量级的内存缓存，确保 LLM 查看的是近期的节点容量视图。
评估设置
- 解析准确率：构建了 500 条 intent 语句的真实标签数据集；对每个 LLM 测量子集准确率（所有约束均正确）。
- 调度质量：在 12 节点测试集群上运行六种真实工作负载组合（CPU 密集、内存密集、混合、冲突的软偏好等），将得到的 pod 分布与手动调优的亲和规则以及基线启发式解析器进行比较。

*延迟从意图接收至亲和对象生成；同步 LLM 调用主导了这段时间。

通过展示 LLM 能够可靠地将人类友好的调度提示转换为可执行的 Kubernetes 策略，这项研究为更直观、意图驱动的集群管理打开了大门——这对任何希望简化 DevOps 工作流的组织来说都是一个有吸引力的前景。