[Paper] CALM：一种用于基于小型语言模型的系统中QoS感知路由的自适应编排方法

发布: 5天前 (2026年2月3日 GMT+8 23:20)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.03632v1

概述

本文介绍了 CALM，一个自适应编排层，能够动态选择并将请求路由到舰队中最合适的小语言模型（SLM）。通过持续监控工作负载特征和 QoS 指标（延迟、能耗、响应质量），CALM 可以将推理延迟降低约 40 %，能耗减半，同时保持任务性能与单模型部署相当。

QoS‑aware multi‑model orchestration – 引入一个 MAPE‑K（Monitor‑Analyze‑Plan‑Execute‑Knowledge）循环，根据每个请求决定使用哪个 SLM 处理查询。
Dynamic caching & scheduling – 轻量级调度器将最有前景的 SLM 常驻内存，降低冷启动开销。
Empirical validation – 在多个领域特定基准上的实验显示，相比最佳单一 SLM 基线，延迟最高可降低 40 %，能耗节省 50 %。
Open‑source reference implementation – 作者发布了一个原型，可插入现有推理流水线（例如 Hugging Face Transformers、FastAPI）。

编排逻辑实现为一个轻量中间件层，可置于任何推理服务器前端，只需标准的 REST/gRPC 钩子。

关键要点

Edge & on‑prem 部署 – 公司可以在单个 GPU/CPU 机器上运行混合的微型（例如 80M 参数）和中型（例如 300M 参数）模型，实现快速响应，且无需云 API 成本或数据隐私顾虑。
成本效益扩展 – 云服务提供商可以按模型实例计费；CALM 只保持必要模型热备的能力降低了 VM/实例使用，从而降低运营支出。
开发者友好性 – 中间件抽象了模型选择逻辑；开发者只需使用元数据文件注册新的 SLM，剩下的路由交给 CALM 处理。
自适应合规 – 在受监管的环境中，某些数据必须留在本地，CALM 可以强制策略，将敏感查询路由到本地托管的 SLM，而将非敏感查询发送到更便宜的云 API。

模型异构性开销 – 当前原型假设所有 SLM 共享相同的分词器和输入格式；要扩展到真正的异构架构（例如，编码器‑解码器 vs. 仅解码器），需要额外的配套工作。
冷启动延迟 – 虽然缓存可以缓解，但对很少使用的模型的首次请求仍会产生显著的加载时间；未来的工作可以探索基于工作负载预测的预测性预热。
QoS 指标加权 – 评分函数目前是手动调优的；如何从 SLA 或业务目标中自动学习最优权重仍是一个未解决的挑战。
安全性与隔离 – 在同一进程中运行多个模型可能会引发隔离问题；容器级沙箱是一种潜在的解决方向。

总体而言，CALM 展示了智能、自适应的编排层能够在不牺牲用户期望的性能的前提下，释放小语言模型的效率——这一洞见可能会重塑大规模 AI 服务的部署方式。