[Paper] 大规模多智能体智能辅导的延迟与成本
发布: (2026年4月27日 GMT+8 15:07)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.24110v1
概述
本文评估了 ITAS,一个多代理辅导平台,它将多个专门的 大语言模型(LLM)代理串联起来,以回答学生的问题。通过在三种 Google Vertex AI 定价层级以及最多 50 个并发用户下测量延迟和成本,作者展示了不同部署选择如何影响性能——从单场讲座演示到全校范围的推广。
关键贡献
- 经验延迟基准针对四代理LLM辅导系统,在三种定价层级(Standard PayGo、Priority PayGo、Provisioned Throughput)下进行。
- 可扩展性分析覆盖 11 个并发级别(1–50 同时用户),使用真实的研究生水平 STEM 查询。
- 成本‑性能权衡模型比较每标记按使用付费定价与预留容量定价,以每位学生每学期相当于教材成本的形式表达。
- 层级选择指南将典型教育使用场景(研讨会、课堂、大学)映射到最经济且响应最快的定价层级。
方法论
- 被测系统 – ITAS 在 Google Vertex AI 上通过 Gemini 2.5 Flash 协调四个专门的代理(例如概念解释、问题求解、代码调试、反馈)。
- 工作负载生成 – 从一个实时的研究生 STEM 课程中收集的 3,000 多条真实查询被重新发送到系统。
- 吞吐量层级 –
- 标准 PayGo:基线按需定价,无优先队列。
- 优先 PayGo:同样的按 token 计费模型,但使用更高优先级的服务类别以减少排队延迟。
- 预置吞吐量:为租户保留固定的“每秒 token 数”,无论实际使用量如何均按此计费。
- 并发扫描 – 同时用户会话数量从 1 增加到 50,测量端到端响应时间(包括多个代理并行产生的“最大延迟”效应)。
- 成本核算 – 记录每个请求的 token 消耗,然后乘以各层级的每 token 价格。结果归一化为一个学期的教材成本,以便于解释。
结果与发现
| 层级 | 延迟(中位数)@ 1‑50 用户 | 扩展行为 | 每位学生成本(最坏情况) |
|---|---|---|---|
| Priority PayGo | < 4 秒(所有负载) | 平稳,几乎没有退化 | ≈ $12(约为 $120 教科书的 1/10) |
| Standard PayGo | ~2 秒(1‑5 用户) → > 10 秒(≥ 30 用户) | 当并发用户超过 20 时显著变慢 | ≈ $15(仍低于教科书) |
| Provisioned Throughput | 1.2 秒(≤ 20 用户) → 超过 20 用户时饱和,延迟骤升 | 低并发时表现最佳,在约 20 用户时出现硬上限 | $20–$30(若持续预留);在流量突发且可预测时比 PayGo 更便宜 |
- 并行阶段最大影响:由于每个查询会产生四个并行的 API 调用,整体响应时间受最慢的代理支配。Priority PayGo 的排队延迟降低缓解了此效应。
- 成本比较:即使是最昂贵的预置方案,其费用仍远低于每学期一本 STEM 教科书的成本,使得 LLM 辅导在大多数机构中具备财务可行性。
- 层级选择矩阵:
- 研讨会 / 试点:Provisioned Throughput(低并发,最佳延迟)。
- 课堂(20‑30 名学生):Priority PayGo(稳定的 <4 秒)。
- 全校范围(≥ 30 并发用户):Priority PayGo 是唯一能够避免严重延迟峰值的层级;Standard PayGo 仅适用于低流量实验室。
实际意义
- 部署者可以根据预期的并发负载选择定价层级,而不是默认使用最便宜的按需付费计划。
- 延迟保证(< 4 秒)在大规模使用 Priority PayGo 时是可实现的,这对保持学生在实时辅导会话中的参与度至关重要。
- 预算规划:机构可以将辅导服务的费用预算为教材成本的一小部分,从而释放资金用于其他教学资源。
- 可预测的流量模式(例如,安排好的办公时间、考试复习周)可以使用 Provisioned Throughput 来锁定更低的每 token 费率,降低整体支出。
- 架构洞察:多代理设计必须考虑“最慢代理”瓶颈;开发者可以考虑动态代理选择或提前退出策略,以在响应时间上削减毫秒级延迟。
限制与未来工作
- 单一 LLM 提供商 – 实验仅限于 Gemini 2.5 Flash;使用其他模型或提供商时结果可能不同。
- 固定的代理数量 – 本研究使用四个代理;增加专门化代理的数量可能会加剧最大延迟效应。
- 工作负载的代表性 – 查询来源于研究生 STEM 课程;其他领域(人文、K‑12)可能呈现不同的 token 使用模式。
- 成本模型的粒度 – 真实世界的合同常包含批量折扣或企业级 SLA 层级,这在三种测试计划中未被捕获。
未来的研究可以探索自适应代理编排(例如跳过不必要的代理)、跨提供商的成本‑延迟权衡,以及通过长期现场研究同时衡量学习成果与系统性能。
作者
- Iizalaarab Elhaimeur
- Nikos Chrisochoides
论文信息
- arXiv ID: 2604.24110v1
- 分类: cs.CY, cs.AI, cs.DC, cs.LG
- 发布时间: 2026年4月27日
- PDF: 下载 PDF