[Paper] Aragog:即时模型路由,实现代理工作流的可扩展服务
发布: (2025年11月26日 GMT+8 10:05)
7 min read
原文: arXiv
Source: arXiv - 2511.20975v1
概览
Aragog 解决了当今 AI 驱动服务中的一个紧迫问题:如何在不大幅提升计算成本或延迟的情况下提供 agentic 工作流——将多个 LLM 调用串联起来的多步骤管道。通过在工作流运行时动态将每个请求路由到最合适的模型配置,Aragog 实现了显著更高的吞吐量和更低的延迟,同时保持答案质量与最昂贵的静态设置持平。
关键贡献
- 即时配置路由:引入了一个运行时感知的调度器,能够在工作流中途根据当前系统负载切换模型选择。
- 两阶段解耦:将问题拆分为 (1) 一次性 路由 阶段,枚举所有保持精度的配置;以及 (2) 轻量级的 每阶段 调度器,实时挑选最佳配置。
- 可扩展加速技术:新颖的剪枝和缓存方法在可能的模型分配组合呈指数爆炸的情况下仍保持路由阶段可处理。
- 实证收益:在一套真实工作流上展示了峰值吞吐量提升 50–217 %,中位延迟降低 33–79 %,且输出质量无可测量的下降。
方法论
- 工作流建模 – 将每个 agentic 工作流表示为有向无环图,节点为 LLM 推理步骤,边表示数据依赖。
- 配置空间生成 – 对每个节点定义一组候选 LLM(不同规模、量化方式或提供商)。系统首先进行 静态分析,剪除会使任务精度下降超过用户指定阈值的配置。
- 一次性路由 – 在剪枝后的空间上,Aragog 构建一个紧凑的 可行 端到端配置查找表。此步骤在每次工作流部署时运行一次,并利用启发式(如支配过滤)保持表的规模小。
- 每阶段调度器 – 在运行时,轻量控制器监控 CPU/GPU 利用率、队列长度和延迟预算。每个节点执行前,调度器从查找表中挑选在当前资源约束下仍满足要求的最廉价配置。如果系统负载激增,调度器可以即时将高成本、高精度模型替换为更便宜的备选。
- 反馈回路 – 将执行指标反馈回去,持续更新调度器的成本模型,确保在工作负载演变时决策仍保持最优。
结果与发现
| 指标 | 基线(静态配置) | Aragog | 改进幅度 |
|---|---|---|---|
| 峰值吞吐量 | 1,000 req/s | 1,500–2,170 req/s | +50 % 至 +217 % |
| 中位延迟(90 % 负载) | 1.2 s | 0.26–0.81 s | –33 % 至 –79 % |
| 任务精度 | 最高成本静态配置 | 与最高成本配置相同 | ≈ 0 % 损失 |
- 对负载波动的鲁棒性:当请求率在执行过程中翻倍时,Aragog 自动将阶段迁移到更轻量的模型,防止队列堆积。
- 模型无关性:实验覆盖 OpenAI、Anthropic 以及开源 LLM 系列,验证了该方法在异构后端上的通用性。
- 开销可忽略:每阶段调度器仅增加 < 2 ms 的决策延迟,远小于推理时间的收益。
实际意义
- 成本效益扩展:云服务商和 SaaS 平台可以在相同硬件预算下运行更多并发的 agentic 会话,降低运营支出。
- 动态 SLA:服务能够在突发流量下通过切换到更廉价的模型保证延迟目标,空闲时再恢复高精度模型。
- 运维简化:工程师无需手动调优每个工作流的模型分配;Aragog 的自动路由承担了繁重的工作。
- 促进 agentic 管道的广泛采用:降低的延迟和成本门槛使得在实时产品(如代码助手、对话代理和自主数据管道)中嵌入多步骤 LLM 推理成为可能。
局限性与未来工作
- 一次性路由成本:虽然可以摊销,但对于拥有数百节点的超大工作流,路由阶段仍可能耗时较长;需要更智能的增量更新方案。
- 精度估计:当前剪枝依赖离线基准;引入在线质量监控可进一步收紧成本‑精度权衡。
- 硬件异构性:实验主要在 GPU 为主的集群上进行;将调度器扩展到 CPU、TPU 与边缘设备仍是未解挑战。
- 多租户公平性:后续版本应在共享模型资源竞争时考虑租户之间的公平性。
Aragog 证明了“即时”模型路由是扩展复杂 LLM 驱动应用的实用路径,为开发者在生产环境中平衡成本、延迟和质量提供了强有力的新杠杆。
作者
- Yinwei Dai
- Zhuofu Chen
- Anand Iyer
- Ravi Netravali
论文信息
- arXiv ID: 2511.20975v1
- 分类: cs.DC
- 发布日期: 2025 年 11 月 26 日
- PDF: 下载 PDF