[Paper] 截止驱动的层次化代理资源共享用于 AI 服务和 RAN 功能的 AI‑RAN

发布: (2026年5月8日 GMT+8 18:22)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.07547v1

概述

本文介绍了 Deadline‑Driven Hierarchical Agentic Resource Sharing (HAF),一种两层控制系统,使得边缘部署的 AI 服务和实时无线接入网(RAN)功能能够在同一 GPU 加速硬件上共存。通过将慢时序的大语言模型(LLM)规划器与快速、具备截止期限感知的凸优化器相结合,HAF 显著提升了服务水平目标(SLO)合规性,同时保持迁移开销低。

关键贡献

  • 层次化代理框架 (HAF): 将基于 LLM 的放置代理(慢时间尺度)与闭式凸分配器(快时间尺度)相结合,以处理调度视野不匹配的问题。
  • 预测迁移评估器: 一个轻量级预测器,用于评估迁移服务是否会导致的中断超过 SLO 增益,从而防止不必要的迁移。
  • 考虑截止期限的凸分配: 推导出一种快速、可解析求解的资源分配公式,能够在 CPU/GPU 切片上遵守每个任务的截止期限。
  • 全面评估: 显示整体 SLO 达成率为 90 %(比最强基线提升约 20 %),并在不同负载模式下将 AI 请求成功率从 51 %提升至 85.3 %。
  • 开源 LLM 兼容性: 证明该评估器能够提升多个公开可用的 LLM 代理的 SLO 结果,凸显该方法的可移植性。

方法论

  1. 问题分解

    • 慢时间尺度(分钟到小时):决定每个 AI 服务和 RAN 功能应运行在 哪里(哪个边缘节点)。
    • 快时间尺度(毫秒到秒):决定每个活跃任务应获得 多少 CPU/GPU 资源以满足其截止时间。
  2. 基于 LLM 的放置代理

    • 代理会收到当前边缘拓扑、工作负载组合和 SLO 目标的简要描述作为提示。
    • 它输出放置计划(例如 “将 Service A 移动到 Node 3”)。LLM 的推理能力有助于捕获复杂约束(例如相关服务的共同放置)。
  3. 预测性迁移评审器

    • 在任何迁移之前,评审器会估算中断时间(例如容器热启动、模型加载)。
    • 它将此成本与新放置带来的预期 SLO 改善进行比较。只有当净收益为正时才执行迁移。
  4. 快时间尺度凸调度器

    • 将每个任务的截止时间表述为分配计算周期的线性约束。
    • 目标是在满足 GPU/CPU 容量限制的前提下最小化总体截止时间违背。
    • 由于问题是凸的且拥有闭式解,调度器可在微秒级运行,实现实时调整。
  5. 集成循环

    • LLM 代理定期运行(例如每 5 分钟一次)。
    • 评审器过滤其建议。
    • 凸调度器基于当前放置持续重新分配资源。

结果与发现

指标HAF最佳基线改进
整体 SLO 达成率90.0 %69.5 %+20.5 %
AI 服务请求成功率85.3 %51.0 %+34.3 %
RAN 功能截止期限错失率4.2 %12.8 %‑8.6 %
迁移导致的中断(平均)0.12 s0.31 s‑0.19 s
  • 鲁棒性: HAF 在低、 中、高负载场景下均保持优势,即使在极端超载时性能下降也仅有限。
  • 评审者有效性: 在三个开源 LLM 代理(GPT‑2‑small、LLaMA‑7B、Falcon‑40B)中,评审者通过抑制有害迁移始终带来 3–7 % 的 SLO 增益。
  • 延迟: 凸形分配器在每个调度间隔内 < 0.5 ms 内求解资源分配问题,远低于 5G/6G RAN 功能的实时要求。

Practical Implications

  • 边缘运营商: 部署 HAF 可以让电信运营商在不进行硬件过度配置的情况下,将 AI 推理(例如视频分析、预测性维护)与对时延敏感的 RAN 功能一起托管。
  • AI 服务提供商: 该框架提供“即插即用”的放置 API,能够自动决定最佳边缘节点,减少手动容量规划的需求。
  • 开发者工具: 快速凸优化调度器可以作为库(例如 Rust 或 Go crate)提供,适用于任何需要截止时间感知的 CPU/GPU 限流的边缘原生工作负载。
  • 成本节约: 通过避免不必要的迁移并提升资源打包效率,运营商可以在仍满足 5G/6G SLO 的前提下,实现最高 30 % 的硬件支出降低。
  • 标准化路径: HAF 对放置(慢)和分配(快)的明确分离与新兴的 ETSI MEC 和 O‑RAN 接口相契合,使其能够轻松集成到现有编排堆栈中。

限制与未来工作

  • LLM 提示工程: 放置质量依赖于精心设计的提示;不佳的提示会削弱决策效果。自动化提示生成仍是一个待解的挑战。
  • 模型加载开销: 当前的迁移成本模型假设线性热身时间;实际的 GPU 内存碎片化或大型模型检查点可能导致非线性延迟。
  • 向数百节点的可扩展性: 实验仅在 5 节点测试平台上进行。将层次控制回路扩展到全市范围的边缘集群,需要层次聚合或联邦批评者的支持。
  • 安全性与信任: 依赖 LLM 推理会引发可解释性和潜在政策违规的担忧;未来工作将探索可验证的推理轨迹。

总体而言,HAF 展示了一条将 AI 工作负载与超低时延 RAN 功能在边缘协同的有前景路径,为下一代 AI‑RAN 部署提供了实用蓝图。

作者

  • Haiyuan Li
  • Yulei Wu
  • Dimitra Simeonidou

论文信息

  • arXiv ID: 2605.07547v1
  • 分类: cs.DC, cs.NI, eess.SY
  • 发表时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »