[Paper] 截止驱动的层次化代理资源共享用于 AI 服务和 RAN 功能的 AI‑RAN

发布: 3天前 (2026年5月8日 GMT+8 18:22)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.07547v1

概述

本文介绍了 Deadline‑Driven Hierarchical Agentic Resource Sharing (HAF)，一种两层控制系统，使得边缘部署的 AI 服务和实时无线接入网（RAN）功能能够在同一 GPU 加速硬件上共存。通过将慢时序的大语言模型（LLM）规划器与快速、具备截止期限感知的凸优化器相结合，HAF 显著提升了服务水平目标（SLO）合规性，同时保持迁移开销低。

关键贡献

层次化代理框架 (HAF)： 将基于 LLM 的放置代理（慢时间尺度）与闭式凸分配器（快时间尺度）相结合，以处理调度视野不匹配的问题。
预测迁移评估器： 一个轻量级预测器，用于评估迁移服务是否会导致的中断超过 SLO 增益，从而防止不必要的迁移。
考虑截止期限的凸分配： 推导出一种快速、可解析求解的资源分配公式，能够在 CPU/GPU 切片上遵守每个任务的截止期限。
全面评估： 显示整体 SLO 达成率为 90 %（比最强基线提升约 20 %），并在不同负载模式下将 AI 请求成功率从 51 %提升至 85.3 %。
开源 LLM 兼容性： 证明该评估器能够提升多个公开可用的 LLM 代理的 SLO 结果，凸显该方法的可移植性。

方法论

问题分解
- 慢时间尺度（分钟到小时）：决定每个 AI 服务和 RAN 功能应运行在哪里（哪个边缘节点）。
- 快时间尺度（毫秒到秒）：决定每个活跃任务应获得多少 CPU/GPU 资源以满足其截止时间。
基于 LLM 的放置代理
- 代理会收到当前边缘拓扑、工作负载组合和 SLO 目标的简要描述作为提示。
- 它输出放置计划（例如 “将 Service A 移动到 Node 3”）。LLM 的推理能力有助于捕获复杂约束（例如相关服务的共同放置）。
预测性迁移评审器
- 在任何迁移之前，评审器会估算中断时间（例如容器热启动、模型加载）。
- 它将此成本与新放置带来的预期 SLO 改善进行比较。只有当净收益为正时才执行迁移。
快时间尺度凸调度器
- 将每个任务的截止时间表述为分配计算周期的线性约束。
- 目标是在满足 GPU/CPU 容量限制的前提下最小化总体截止时间违背。
- 由于问题是凸的且拥有闭式解，调度器可在微秒级运行，实现实时调整。
集成循环
- LLM 代理定期运行（例如每 5 分钟一次）。
- 评审器过滤其建议。
- 凸调度器基于当前放置持续重新分配资源。

结果与发现

指标	HAF	最佳基线	改进
整体 SLO 达成率	90.0 %	69.5 %	+20.5 %
AI 服务请求成功率	85.3 %	51.0 %	+34.3 %
RAN 功能截止期限错失率	4.2 %	12.8 %	‑8.6 %
迁移导致的中断（平均）	0.12 s	0.31 s	‑0.19 s

鲁棒性： HAF 在低、中、高负载场景下均保持优势，即使在极端超载时性能下降也仅有限。
评审者有效性： 在三个开源 LLM 代理（GPT‑2‑small、LLaMA‑7B、Falcon‑40B）中，评审者通过抑制有害迁移始终带来 3–7 % 的 SLO 增益。
延迟： 凸形分配器在每个调度间隔内 < 0.5 ms 内求解资源分配问题，远低于 5G/6G RAN 功能的实时要求。

Practical Implications

边缘运营商： 部署 HAF 可以让电信运营商在不进行硬件过度配置的情况下，将 AI 推理（例如视频分析、预测性维护）与对时延敏感的 RAN 功能一起托管。
AI 服务提供商： 该框架提供“即插即用”的放置 API，能够自动决定最佳边缘节点，减少手动容量规划的需求。
开发者工具： 快速凸优化调度器可以作为库（例如 Rust 或 Go crate）提供，适用于任何需要截止时间感知的 CPU/GPU 限流的边缘原生工作负载。
成本节约： 通过避免不必要的迁移并提升资源打包效率，运营商可以在仍满足 5G/6G SLO 的前提下，实现最高 30 % 的硬件支出降低。
标准化路径： HAF 对放置（慢）和分配（快）的明确分离与新兴的 ETSI MEC 和 O‑RAN 接口相契合，使其能够轻松集成到现有编排堆栈中。

限制与未来工作

LLM 提示工程： 放置质量依赖于精心设计的提示；不佳的提示会削弱决策效果。自动化提示生成仍是一个待解的挑战。
模型加载开销： 当前的迁移成本模型假设线性热身时间；实际的 GPU 内存碎片化或大型模型检查点可能导致非线性延迟。
向数百节点的可扩展性： 实验仅在 5 节点测试平台上进行。将层次控制回路扩展到全市范围的边缘集群，需要层次聚合或联邦批评者的支持。
安全性与信任： 依赖 LLM 推理会引发可解释性和潜在政策违规的担忧；未来工作将探索可验证的推理轨迹。

总体而言，HAF 展示了一条将 AI 工作负载与超低时延 RAN 功能在边缘协同的有前景路径，为下一代 AI‑RAN 部署提供了实用蓝图。

作者

Haiyuan Li
Yulei Wu
Dimitra Simeonidou

论文信息

arXiv ID: 2605.07547v1
分类: cs.DC, cs.NI, eess.SY
发表时间: 2026年5月8日
PDF: 下载 PDF

[Paper] 截止驱动的层次化代理资源共享用于 AI 服务和 RAN 功能的 AI‑RAN

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] Cerebras Wafer-Scale Engine上的Stencil计算

[Paper] Tenstorrent Wormhole上的Stencil计算

[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练

[论文] RcLLM：通过超前缀 KV 缓存加速生成式推荐