[Paper] 大规模多智能体智能辅导的延迟与成本

发布: (2026年4月27日 GMT+8 15:07)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.24110v1

概述

本文评估了 ITAS,一个多代理辅导平台,它将多个专门的 大语言模型(LLM)代理串联起来,以回答学生的问题。通过在三种 Google Vertex AI 定价层级以及最多 50 个并发用户下测量延迟和成本,作者展示了不同部署选择如何影响性能——从单场讲座演示到全校范围的推广。

关键贡献

  • 经验延迟基准针对四代理LLM辅导系统,在三种定价层级(Standard PayGo、Priority PayGo、Provisioned Throughput)下进行。
  • 可扩展性分析覆盖 11 个并发级别(1–50 同时用户),使用真实的研究生水平 STEM 查询。
  • 成本‑性能权衡模型比较每标记按使用付费定价与预留容量定价,以每位学生每学期相当于教材成本的形式表达。
  • 层级选择指南将典型教育使用场景(研讨会、课堂、大学)映射到最经济且响应最快的定价层级。

方法论

  1. 被测系统 – ITAS 在 Google Vertex AI 上通过 Gemini 2.5 Flash 协调四个专门的代理(例如概念解释、问题求解、代码调试、反馈)。
  2. 工作负载生成 – 从一个实时的研究生 STEM 课程中收集的 3,000 多条真实查询被重新发送到系统。
  3. 吞吐量层级
    • 标准 PayGo:基线按需定价,无优先队列。
    • 优先 PayGo:同样的按 token 计费模型,但使用更高优先级的服务类别以减少排队延迟。
    • 预置吞吐量:为租户保留固定的“每秒 token 数”,无论实际使用量如何均按此计费。
  4. 并发扫描 – 同时用户会话数量从 1 增加到 50,测量端到端响应时间(包括多个代理并行产生的“最大延迟”效应)。
  5. 成本核算 – 记录每个请求的 token 消耗,然后乘以各层级的每 token 价格。结果归一化为一个学期的教材成本,以便于解释。

结果与发现

层级延迟(中位数)@ 1‑50 用户扩展行为每位学生成本(最坏情况)
Priority PayGo< 4 秒(所有负载)平稳,几乎没有退化≈ $12(约为 $120 教科书的 1/10)
Standard PayGo~2 秒(1‑5 用户) → > 10 秒(≥ 30 用户)当并发用户超过 20 时显著变慢≈ $15(仍低于教科书)
Provisioned Throughput1.2 秒(≤ 20 用户) → 超过 20 用户时饱和,延迟骤升低并发时表现最佳,在约 20 用户时出现硬上限$20–$30(若持续预留);在流量突发且可预测时比 PayGo 更便宜
  • 并行阶段最大影响:由于每个查询会产生四个并行的 API 调用,整体响应时间受最慢的代理支配。Priority PayGo 的排队延迟降低缓解了此效应。
  • 成本比较:即使是最昂贵的预置方案,其费用仍远低于每学期一本 STEM 教科书的成本,使得 LLM 辅导在大多数机构中具备财务可行性。
  • 层级选择矩阵
    • 研讨会 / 试点:Provisioned Throughput(低并发,最佳延迟)。
    • 课堂(20‑30 名学生):Priority PayGo(稳定的 <4 秒)。
    • 全校范围(≥ 30 并发用户):Priority PayGo 是唯一能够避免严重延迟峰值的层级;Standard PayGo 仅适用于低流量实验室。

实际意义

  • 部署者可以根据预期的并发负载选择定价层级,而不是默认使用最便宜的按需付费计划。
  • 延迟保证(< 4 秒)在大规模使用 Priority PayGo 时是可实现的,这对保持学生在实时辅导会话中的参与度至关重要。
  • 预算规划:机构可以将辅导服务的费用预算为教材成本的一小部分,从而释放资金用于其他教学资源。
  • 可预测的流量模式(例如,安排好的办公时间、考试复习周)可以使用 Provisioned Throughput 来锁定更低的每 token 费率,降低整体支出。
  • 架构洞察:多代理设计必须考虑“最慢代理”瓶颈;开发者可以考虑动态代理选择或提前退出策略,以在响应时间上削减毫秒级延迟。

限制与未来工作

  • 单一 LLM 提供商 – 实验仅限于 Gemini 2.5 Flash;使用其他模型或提供商时结果可能不同。
  • 固定的代理数量 – 本研究使用四个代理;增加专门化代理的数量可能会加剧最大延迟效应。
  • 工作负载的代表性 – 查询来源于研究生 STEM 课程;其他领域(人文、K‑12)可能呈现不同的 token 使用模式。
  • 成本模型的粒度 – 真实世界的合同常包含批量折扣或企业级 SLA 层级,这在三种测试计划中未被捕获。

未来的研究可以探索自适应代理编排(例如跳过不必要的代理)、跨提供商的成本‑延迟权衡,以及通过长期现场研究同时衡量学习成果与系统性能。

作者

  • Iizalaarab Elhaimeur
  • Nikos Chrisochoides

论文信息

  • arXiv ID: 2604.24110v1
  • 分类: cs.CY, cs.AI, cs.DC, cs.LG
  • 发布时间: 2026年4月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …