[Paper] CALM:一种用于基于小型语言模型的系统中QoS感知路由的自适应编排方法

发布: (2026年2月3日 GMT+8 23:20)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.03632v1

概述

本文介绍了 CALM,一个自适应编排层,能够动态选择并将请求路由到舰队中最合适的小语言模型(SLM)。通过持续监控工作负载特征和 QoS 指标(延迟、能耗、响应质量),CALM 可以将推理延迟降低约 40 %,能耗减半,同时保持任务性能与单模型部署相当。

关键贡献

  • QoS‑aware multi‑model orchestration – 引入一个 MAPE‑K(Monitor‑Analyze‑Plan‑Execute‑Knowledge)循环,根据每个请求决定使用哪个 SLM 处理查询。
  • Dynamic caching & scheduling – 轻量级调度器将最有前景的 SLM 常驻内存,降低冷启动开销。
  • Empirical validation – 在多个领域特定基准上的实验显示,相比最佳单一 SLM 基线,延迟最高可降低 40 %,能耗节省 50 %。
  • Open‑source reference implementation – 作者发布了一个原型,可插入现有推理流水线(例如 Hugging Face Transformers、FastAPI)。

方法论

  1. 监控 – 将每个进入的用户查询连同运行时信号(令牌长度、请求速率、硬件利用率)一起记录。
  2. 分析 – 轻量级预测器根据当前上下文估算每个舰队中 SLM 的预期延迟、能耗和质量。
  3. 规划 – 系统依据加权 QoS 分数(可由运营者配置)对 SLM 进行排序。
  4. 执行 – 排名最高的模型接收请求;如果该模型尚未加载,CALM 将根据调度器的缓存策略触发预取。
  5. 知识库 – 历史性能数据持续更新预测器,使循环能够适应模型漂移或硬件变化。

编排逻辑实现为一个轻量中间件层,可置于任何推理服务器前端,只需标准的 REST/gRPC 钩子。

结果与发现

指标单一‑SLM 基线CALM(多‑SLM)
端到端延迟(毫秒)210124(≈ 40 % 减少)
每次查询能耗(焦耳)1.80.9(≈ 50 % 减少)
任务准确率(BLEU/F1)0.840.83(无统计显著下降)
缓存命中率N/A68 %(得益于智能预加载)

关键要点

  • 延迟提升 主要来源于将短小、对延迟敏感的查询路由到超轻量级 SLM,而将复杂、需要高质量输出的查询交给更大、更强的模型。
  • 能耗节省 来自于仅保留部分模型常驻,并避免不必要的重量级推理。
  • 质量保持 通过 QoS‑感知评分实现,在任务需要时绝不牺牲模型的领域专长。

实际影响

  • Edge & on‑prem 部署 – 公司可以在单个 GPU/CPU 机器上运行混合的微型(例如 80M 参数)和中型(例如 300M 参数)模型,实现快速响应,且无需云 API 成本或数据隐私顾虑。
  • 成本效益扩展 – 云服务提供商可以按模型实例计费;CALM 只保持必要模型热备的能力降低了 VM/实例使用,从而降低运营支出。
  • 开发者友好性 – 中间件抽象了模型选择逻辑;开发者只需使用元数据文件注册新的 SLM,剩下的路由交给 CALM 处理。
  • 自适应合规 – 在受监管的环境中,某些数据必须留在本地,CALM 可以强制策略,将敏感查询路由到本地托管的 SLM,而将非敏感查询发送到更便宜的云 API。

局限性与未来工作

  • 模型异构性开销 – 当前原型假设所有 SLM 共享相同的分词器和输入格式;要扩展到真正的异构架构(例如,编码器‑解码器 vs. 仅解码器),需要额外的配套工作。
  • 冷启动延迟 – 虽然缓存可以缓解,但对很少使用的模型的首次请求仍会产生显著的加载时间;未来的工作可以探索基于工作负载预测的预测性预热。
  • QoS 指标加权 – 评分函数目前是手动调优的;如何从 SLA 或业务目标中自动学习最优权重仍是一个未解决的挑战。
  • 安全性与隔离 – 在同一进程中运行多个模型可能会引发隔离问题;容器级沙箱是一种潜在的解决方向。

总体而言,CALM 展示了智能、自适应的编排层能够在不牺牲用户期望的性能的前提下,释放小语言模型的效率——这一洞见可能会重塑大规模 AI 服务的部署方式。

作者

  • Hemang Jain
  • Divyansh Pandey
  • Karthik Vaidhyanathan

论文信息

  • arXiv ID: 2602.03632v1
  • 分类: cs.SE
  • 发表时间: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »