[Paper] CALM:一种用于基于小型语言模型的系统中QoS感知路由的自适应编排方法
发布: (2026年2月3日 GMT+8 23:20)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.03632v1
概述
本文介绍了 CALM,一个自适应编排层,能够动态选择并将请求路由到舰队中最合适的小语言模型(SLM)。通过持续监控工作负载特征和 QoS 指标(延迟、能耗、响应质量),CALM 可以将推理延迟降低约 40 %,能耗减半,同时保持任务性能与单模型部署相当。
关键贡献
- QoS‑aware multi‑model orchestration – 引入一个 MAPE‑K(Monitor‑Analyze‑Plan‑Execute‑Knowledge)循环,根据每个请求决定使用哪个 SLM 处理查询。
- Dynamic caching & scheduling – 轻量级调度器将最有前景的 SLM 常驻内存,降低冷启动开销。
- Empirical validation – 在多个领域特定基准上的实验显示,相比最佳单一 SLM 基线,延迟最高可降低 40 %,能耗节省 50 %。
- Open‑source reference implementation – 作者发布了一个原型,可插入现有推理流水线(例如 Hugging Face Transformers、FastAPI)。
方法论
- 监控 – 将每个进入的用户查询连同运行时信号(令牌长度、请求速率、硬件利用率)一起记录。
- 分析 – 轻量级预测器根据当前上下文估算每个舰队中 SLM 的预期延迟、能耗和质量。
- 规划 – 系统依据加权 QoS 分数(可由运营者配置)对 SLM 进行排序。
- 执行 – 排名最高的模型接收请求;如果该模型尚未加载,CALM 将根据调度器的缓存策略触发预取。
- 知识库 – 历史性能数据持续更新预测器,使循环能够适应模型漂移或硬件变化。
编排逻辑实现为一个轻量中间件层,可置于任何推理服务器前端,只需标准的 REST/gRPC 钩子。
结果与发现
| 指标 | 单一‑SLM 基线 | CALM(多‑SLM) |
|---|---|---|
| 端到端延迟(毫秒) | 210 | 124(≈ 40 % 减少) |
| 每次查询能耗(焦耳) | 1.8 | 0.9(≈ 50 % 减少) |
| 任务准确率(BLEU/F1) | 0.84 | 0.83(无统计显著下降) |
| 缓存命中率 | N/A | 68 %(得益于智能预加载) |
关键要点
- 延迟提升 主要来源于将短小、对延迟敏感的查询路由到超轻量级 SLM,而将复杂、需要高质量输出的查询交给更大、更强的模型。
- 能耗节省 来自于仅保留部分模型常驻,并避免不必要的重量级推理。
- 质量保持 通过 QoS‑感知评分实现,在任务需要时绝不牺牲模型的领域专长。
实际影响
- Edge & on‑prem 部署 – 公司可以在单个 GPU/CPU 机器上运行混合的微型(例如 80M 参数)和中型(例如 300M 参数)模型,实现快速响应,且无需云 API 成本或数据隐私顾虑。
- 成本效益扩展 – 云服务提供商可以按模型实例计费;CALM 只保持必要模型热备的能力降低了 VM/实例使用,从而降低运营支出。
- 开发者友好性 – 中间件抽象了模型选择逻辑;开发者只需使用元数据文件注册新的 SLM,剩下的路由交给 CALM 处理。
- 自适应合规 – 在受监管的环境中,某些数据必须留在本地,CALM 可以强制策略,将敏感查询路由到本地托管的 SLM,而将非敏感查询发送到更便宜的云 API。
局限性与未来工作
- 模型异构性开销 – 当前原型假设所有 SLM 共享相同的分词器和输入格式;要扩展到真正的异构架构(例如,编码器‑解码器 vs. 仅解码器),需要额外的配套工作。
- 冷启动延迟 – 虽然缓存可以缓解,但对很少使用的模型的首次请求仍会产生显著的加载时间;未来的工作可以探索基于工作负载预测的预测性预热。
- QoS 指标加权 – 评分函数目前是手动调优的;如何从 SLA 或业务目标中自动学习最优权重仍是一个未解决的挑战。
- 安全性与隔离 – 在同一进程中运行多个模型可能会引发隔离问题;容器级沙箱是一种潜在的解决方向。
总体而言,CALM 展示了智能、自适应的编排层能够在不牺牲用户期望的性能的前提下,释放小语言模型的效率——这一洞见可能会重塑大规模 AI 服务的部署方式。
作者
- Hemang Jain
- Divyansh Pandey
- Karthik Vaidhyanathan
论文信息
- arXiv ID: 2602.03632v1
- 分类: cs.SE
- 发表时间: 2026年2月3日
- PDF: 下载 PDF