llm-d 如何借助 SoftBank 的 AI-RAN orchestrator 实现关键资源优化
Source: Red Hat Blog
随着 AI‑RAN 技术现实逐渐清晰,许多电信服务提供商意识到,问题已经不再是能否在同一硬件上同时运行 AI 与无线接入网(RAN),而是如何在大规模下管理 AI。
在 Red Hat 与 SoftBank Corp. 的最新合作中,我们已将 llm‑d 集成到 SoftBank 的 AI‑RAN 编排器 AITRAS 中。llm‑d 由 Red Hat 与其他行业领袖共同创建,是一个开源框架,旨在在 RAN 内部动态且智能地分配大语言模型(LLM)的推理工作,从而实现更高效的资源利用和更佳的性能。
问题:在服务提供商边缘统一 AI 与 RAN 工作负载
传统的 RAN 应用广泛部署在服务提供商的边缘,运行在 CPU 和 GPU 上,通常使用如 Red Hat OpenShift 等 Kubernetes 平台。近期 GenAI 与基于 transformer 的语言模型的激增,使得在边缘实现全新形式的计算和洞察成为可能。除了传统的 RAN 外,还出现了 AI 驱动的 RAN 应用和代理,它们需要在边缘提供运行时和推理端点。
服务提供商面临的关键问题是:如何让传统 RAN 与这些新兴的语言模型和代理在 RAN 位置共存,以释放新用例、创造价值并实现货币化。这种统一对于降低运营支出(OpEx)和加速新收入生成边缘服务的上市时间至关重要。
为了使 AI‑RAN 在商业上可行,服务提供商需要像对待云原生网络功能(CNF)和应用一样,对 AI 工作负载提供同等的灵活性。SoftBank 与 Red Hat 的合作,利用 llm‑d 与 vLLM 实现 AI‑RAN,正是为此而生。
llm‑d:推理与编排器之间的桥梁
vLLM 已成为 AI 推理的开源领军者,提供在单个 GPU 节点上的高性能模型部署。然而,它并未设计用于在复杂的多节点环境中管理模型部署。这正是 llm‑d 诞生要解决的具体问题。通过利用 Kubernetes,llm‑d 在多个节点上编排 vLLM,实现生产级规模的 AI 推理,将 vLLM 的效率扩展到分布式环境。
将 llm‑d 集成到 SoftBank AITRAS 编排器后,服务提供商实现了多项重大突破:
- 统一 AI 与 RAN 工作负载: AITRAS 在多个 GPU 集群间编排并优化 RAN 工作负载和 LLM 请求,而 llm‑d 与 vLLM 能够智能(前缀、KV‑缓存、负载感知)地将推理请求路由至 GPU,顺畅管理 GPU 资源并实现自动扩缩容。
- 硬件感知优化: LLM 推理包含两个不同阶段——prefill(计算密集型的提示处理)和decode(受内存带宽限制的 token 生成)。llm‑d 使 AITRAS 能够将这两个阶段解耦,动态为每个阶段分配专用的 GPU 资源。此举降低了高性能 AI 需求抢占共享硬件的关键 RAN 功能的风险,保护网络弹性并为所有客户确保更高的服务质量(QoS)。
- 面向可变需求的自主扩缩容: 用户对 LLM 服务的请求波动很大。llm‑d 让 AITRAS 能够根据工作负载特征自动分配并扩缩 prefill 与 decode 工作者角色,降低延迟、提升能耗效率,并在实现可持续发展目标的同时降低总体拥有成本(TCO)。
为什么这对5G和6G的未来很重要
将 llm‑d 集成到 AITRAS 中实际上为边缘 AI 提供了操作系统。它使 SoftBank 能够在功耗高效的架构(包括基于 Arm 的系统)上运行高性能推理和 RAN 工作负载,证明 AI‑RAN 能够实现下一代移动网络所需的可扩展性和灵活性。通过从手动配置转向自动化、由 llm‑d 驱动的部署模型,运营商可以消除长期阻碍边缘 AI 的运营复杂性。
运营商正进入一个网络不仅仅传输数据——而是智能且高效地处理数据的时代。了解此次集成的成果,请访问 Red Hat 在 2026 年巴塞罗那移动世界大会的展位,届时专家将解释 llm‑d 与 AITRAS 如何将 AI‑RAN 的愿景变为现实。