[Paper] 大规模多智能体智能辅导的延迟与成本

发布: 2天前 (2026年4月27日 GMT+8 15:07)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24110v1

概述

本文评估了 ITAS，一个多代理辅导平台，它将多个专门的大语言模型（LLM）代理串联起来，以回答学生的问题。通过在三种 Google Vertex AI 定价层级以及最多 50 个并发用户下测量延迟和成本，作者展示了不同部署选择如何影响性能——从单场讲座演示到全校范围的推广。

经验延迟基准针对四代理LLM辅导系统，在三种定价层级（Standard PayGo、Priority PayGo、Provisioned Throughput）下进行。
可扩展性分析覆盖 11 个并发级别（1–50 同时用户），使用真实的研究生水平 STEM 查询。
成本‑性能权衡模型比较每标记按使用付费定价与预留容量定价，以每位学生每学期相当于教材成本的形式表达。
层级选择指南将典型教育使用场景（研讨会、课堂、大学）映射到最经济且响应最快的定价层级。

被测系统 – ITAS 在 Google Vertex AI 上通过 Gemini 2.5 Flash 协调四个专门的代理（例如概念解释、问题求解、代码调试、反馈）。
工作负载生成 – 从一个实时的研究生 STEM 课程中收集的 3,000 多条真实查询被重新发送到系统。
吞吐量层级 –
- 标准 PayGo：基线按需定价，无优先队列。
- 优先 PayGo：同样的按 token 计费模型，但使用更高优先级的服务类别以减少排队延迟。
- 预置吞吐量：为租户保留固定的“每秒 token 数”，无论实际使用量如何均按此计费。
并发扫描 – 同时用户会话数量从 1 增加到 50，测量端到端响应时间（包括多个代理并行产生的“最大延迟”效应）。
成本核算 – 记录每个请求的 token 消耗，然后乘以各层级的每 token 价格。结果归一化为一个学期的教材成本，以便于解释。

层级	延迟（中位数）@ 1‑50 用户	扩展行为	每位学生成本（最坏情况）
Priority PayGo	< 4 秒（所有负载）	平稳，几乎没有退化	≈ $12（约为 $120 教科书的 1/10）
Standard PayGo	~2 秒（1‑5 用户） → > 10 秒（≥ 30 用户）	当并发用户超过 20 时显著变慢	≈ $15（仍低于教科书）
Provisioned Throughput	1.2 秒（≤ 20 用户） → 超过 20 用户时饱和，延迟骤升	低并发时表现最佳，在约 20 用户时出现硬上限	$20–$30（若持续预留）；在流量突发且可预测时比 PayGo 更便宜

并行阶段最大影响：由于每个查询会产生四个并行的 API 调用，整体响应时间受最慢的代理支配。Priority PayGo 的排队延迟降低缓解了此效应。
成本比较：即使是最昂贵的预置方案，其费用仍远低于每学期一本 STEM 教科书的成本，使得 LLM 辅导在大多数机构中具备财务可行性。
层级选择矩阵：
- 研讨会 / 试点：Provisioned Throughput（低并发，最佳延迟）。
- 课堂（20‑30 名学生）：Priority PayGo（稳定的 <4 秒）。
- 全校范围（≥ 30 并发用户）：Priority PayGo 是唯一能够避免严重延迟峰值的层级；Standard PayGo 仅适用于低流量实验室。

部署者可以根据预期的并发负载选择定价层级，而不是默认使用最便宜的按需付费计划。
延迟保证（< 4 秒）在大规模使用 Priority PayGo 时是可实现的，这对保持学生在实时辅导会话中的参与度至关重要。
预算规划：机构可以将辅导服务的费用预算为教材成本的一小部分，从而释放资金用于其他教学资源。
可预测的流量模式（例如，安排好的办公时间、考试复习周）可以使用 Provisioned Throughput 来锁定更低的每 token 费率，降低整体支出。
架构洞察：多代理设计必须考虑“最慢代理”瓶颈；开发者可以考虑动态代理选择或提前退出策略，以在响应时间上削减毫秒级延迟。

未来的研究可以探索自适应代理编排（例如跳过不必要的代理）、跨提供商的成本‑延迟权衡，以及通过长期现场研究同时衡量学习成果与系统性能。