[Paper] 软件定义的 Agentic 服务

发布: (2026年1月7日 GMT+8 01:22)
7 min read
原文: arXiv

Source: arXiv - 2601.03197v1

概述

本文介绍了 Software-Defined Agentic Serving (SDAS),一种用于运行多代理 LLM 流水线的新框架,将服务层视为软件定义网络。通过公开可编程的控制平面,SDAS 使开发者能够根据实时负载、延迟和任务特定提示动态调整代理之间的交互——这是传统的静态服务堆栈无法实现的。

关键贡献

  • 受SDN启发的LLM代理架构 – 将 控制平面(策略、路由、扩展) 与 数据平面(实际的LLM推理) 分离,实现即时重新配置。
  • 声明式意图语言 – 开发者可以表达高级目标(例如“最小化面向用户的查询延迟”或“在合规检查中优先保证准确性”),让系统将其转化为具体的服务操作。
  • 动态通信控制 – 基于运行时感知的代理间消息路由、自动负载均衡以及基于当前资源使用情况的自适应批处理。
  • 原型实现与基准套件 – 基于流行的LLM服务堆栈(vLLM、TGI)构建,并在真实的多代理工作流(问答、工具增强推理、自动代码生成)上进行评估。
  • 展示的性能提升 – 与静态流水线相比,端到端延迟最高降低 2.3 倍,GPU 内存占用降低 30 %。

方法论

  1. 系统设计 – 作者将服务栈建模为一个图,其中节点是 LLM 代理(或工具调用服务),边表示通信通道。控制器 监控指标(GPU 利用率、队列长度、请求优先级),并向位于每个代理前面的 交换机 推送策略。
  2. 策略语言 – 轻量级 DSL 让工程师声明约束(例如 “max‑latency < 200 ms”)和偏好(例如 “对低风险步骤使用更便宜的模型”)。控制器将这些编译为路由表和批处理规则。
  3. 运行时适配 – 通过反馈回路,控制器定期采样遥测数据,运行轻量级优化器(线性规划或基于规则的启发式),并在不重启服务的情况下更新数据平面。
  4. 评估 – 原型运行三个代表性流水线:(a) 带检索的多轮问答,(b) 工具增强的规划(代码生成 + 执行沙箱),以及 (c) 用于网页任务自动化的自主代理。每个工作负载在不同请求速率和 GPU 预算下进行测试,将 SDAS 与基线静态编排器进行比较。

结果与发现

指标基线(静态)SDAS(动态)改进
99 百分位延迟420 ms180 ms提升 2.3 倍
平均 GPU 内存使用12 GB8.4 GB降低 30 %
吞吐量(查询 / 秒)4562约提升 38 %
策略合规性(满足延迟 SLA)78 %96 %+18 个百分点

关键要点

  • 自适应批处理 减少空闲 GPU 周期,尤其在请求模式突发时。
  • 动态路由 防止热点;当代理负载过高时,会自动转移到备用副本。
  • 意图驱动的 DSL 让非机器学习工程师无需修改底层代码即可微调服务行为。

Practical Implications

  • 更快的用户体验:AI 驱动的产品(聊天机器人、代码助手),因为服务层能够即时响应流量峰值或延迟峰值。
  • 成本节约:通过缩小内存占用并提升 GPU 利用率,基于云的 LLM 服务可以在每个 GPU 上运行更多工作负载,从而降低运营费用。
  • 运维简化:团队可以在 DSL 中编码业务级别的 SLA(例如,“金融查询的高准确率”),让系统自动强制执行——减少手动调优的需求。
  • 可扩展性:SDAS 模型可以叠加在现有的服务框架(Ray Serve、vLLM、TGI)之上,成为已经运行多代理流水线的组织的即插即用升级。

限制与未来工作

  • 原型范围 – 当前实现针对单节点 GPU 集群;将控制平面扩展到多节点数据中心仍是一个未解决的挑战。
  • 策略语言的表达能力 – 虽然 DSL 覆盖了常见的延迟/准确性约束,但更复杂的 QoS 策略(例如租户之间的公平性)需要更丰富的语义。
  • 安全考虑 – 动态路由可能会使代理暴露于意外流量;作者指出需要强大的身份验证和沙箱机制。
  • 未来方向 包括分布式控制器设计、与容器编排系统(Kubernetes)的集成,以及探索基于强化学习的策略优化,以实现更细粒度的自适应。

作者

  • Saurabh Agarwal
  • Marco Laju
  • Jayanth Srinivasa
  • Myungjin Lee
  • Aditya Akella

论文信息

  • arXiv ID: 2601.03197v1
  • 分类: cs.DC, cs.MA
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »