[Paper] 软件定义的 Agentic 服务

发布: 1个月前 (2026年1月7日 GMT+8 01:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03197v1

概述

本文介绍了 Software-Defined Agentic Serving (SDAS)，一种用于运行多代理 LLM 流水线的新框架，将服务层视为软件定义网络。通过公开可编程的控制平面，SDAS 使开发者能够根据实时负载、延迟和任务特定提示动态调整代理之间的交互——这是传统的静态服务堆栈无法实现的。

关键贡献

受SDN启发的LLM代理架构 – 将 控制平面（策略、路由、扩展）与 数据平面（实际的LLM推理）分离，实现即时重新配置。
声明式意图语言 – 开发者可以表达高级目标（例如“最小化面向用户的查询延迟”或“在合规检查中优先保证准确性”），让系统将其转化为具体的服务操作。
动态通信控制 – 基于运行时感知的代理间消息路由、自动负载均衡以及基于当前资源使用情况的自适应批处理。
原型实现与基准套件 – 基于流行的LLM服务堆栈（vLLM、TGI）构建，并在真实的多代理工作流（问答、工具增强推理、自动代码生成）上进行评估。
展示的性能提升 – 与静态流水线相比，端到端延迟最高降低 2.3 倍，GPU 内存占用降低 30 %。

方法论

系统设计 – 作者将服务栈建模为一个图，其中节点是 LLM 代理（或工具调用服务），边表示通信通道。控制器 监控指标（GPU 利用率、队列长度、请求优先级），并向位于每个代理前面的 交换机 推送策略。
策略语言 – 轻量级 DSL 让工程师声明约束（例如 “max‑latency < 200 ms”）和偏好（例如 “对低风险步骤使用更便宜的模型”）。控制器将这些编译为路由表和批处理规则。
运行时适配 – 通过反馈回路，控制器定期采样遥测数据，运行轻量级优化器（线性规划或基于规则的启发式），并在不重启服务的情况下更新数据平面。
评估 – 原型运行三个代表性流水线：(a) 带检索的多轮问答，(b) 工具增强的规划（代码生成 + 执行沙箱），以及 (c) 用于网页任务自动化的自主代理。每个工作负载在不同请求速率和 GPU 预算下进行测试，将 SDAS 与基线静态编排器进行比较。

结果与发现

指标	基线（静态）	SDAS（动态）	改进
99 百分位延迟	420 ms	180 ms	提升 2.3 倍
平均 GPU 内存使用	12 GB	8.4 GB	降低 30 %
吞吐量（查询 / 秒）	45	62	约提升 38 %
策略合规性（满足延迟 SLA）	78 %	96 %	+18 个百分点

关键要点

自适应批处理 减少空闲 GPU 周期，尤其在请求模式突发时。
动态路由 防止热点；当代理负载过高时，会自动转移到备用副本。
意图驱动的 DSL 让非机器学习工程师无需修改底层代码即可微调服务行为。

Practical Implications

更快的用户体验：AI 驱动的产品（聊天机器人、代码助手），因为服务层能够即时响应流量峰值或延迟峰值。
成本节约：通过缩小内存占用并提升 GPU 利用率，基于云的 LLM 服务可以在每个 GPU 上运行更多工作负载，从而降低运营费用。
运维简化：团队可以在 DSL 中编码业务级别的 SLA（例如，“金融查询的高准确率”），让系统自动强制执行——减少手动调优的需求。
可扩展性：SDAS 模型可以叠加在现有的服务框架（Ray Serve、vLLM、TGI）之上，成为已经运行多代理流水线的组织的即插即用升级。

限制与未来工作

原型范围 – 当前实现针对单节点 GPU 集群；将控制平面扩展到多节点数据中心仍是一个未解决的挑战。
策略语言的表达能力 – 虽然 DSL 覆盖了常见的延迟/准确性约束，但更复杂的 QoS 策略（例如租户之间的公平性）需要更丰富的语义。
安全考虑 – 动态路由可能会使代理暴露于意外流量；作者指出需要强大的身份验证和沙箱机制。
未来方向 包括分布式控制器设计、与容器编排系统（Kubernetes）的集成，以及探索基于强化学习的策略优化，以实现更细粒度的自适应。

作者

Saurabh Agarwal
Marco Laju
Jayanth Srinivasa
Myungjin Lee
Aditya Akella

论文信息

arXiv ID: 2601.03197v1
分类: cs.DC, cs.MA
出版日期: 2026年1月6日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 基于多模态风格迁移的 Prompt 调优用于高效联邦领域泛化

Federated Domain Generalization（FDG）旨在跨分布式客户端协同训练一个能够在未见领域上良好泛化的global model。然而...

[Paper] 性能可移植的 Lattice QCD 求解器中多右端向量的优化与分析

管理迭代求解器（iterative solvers）在稀疏线性系统（sparse linear systems）中的高计算成本是科学计算中已知的挑战。此外，科学应用…

[Paper] LACIN：线性排列的完全互连网络

一些互连网络基于完全图拓扑结构。中等规模的网络可以基于单个完全图。然而，大规模的……

[Paper] 自演化分布式内存架构用于可扩展 AI 系统

分布式 AI 系统在计算、通信和部署层面面临关键的内存管理挑战。基于 RRAM 的内存计算遭受……