适用于基站的 AI 模型：On-Site Training 与推理加速

发布: 3天前 (2026年2月9日 GMT+8 10:45)

9 分钟阅读

Source: Samsung Tech Blog

Samsung Research 下一代通信研究中心正在研究基站内部模型推理加速及 On‑Site Training 技术，以准备 AI‑RAN 时代。本文将说明 Radio Access Network 的环境特性和约束，并介绍我们解决这些问题的经验。

本文基于 Samsung Developer 频道的 [STC25] 适用于基站的 AI 模型：On‑Site Training 与推理加速 视频撰写。

介绍

Samsung Research 下一代通信研究中心正为 AI‑RAN 时代做准备，研究基站内部模型推理加速和 On‑Site Training 技术。本文将说明 Radio Access Network 的环境特性和约束，并介绍我们解决这些问题的经验。

什么是 AI‑RAN？

AI‑RAN 是指将人工智能（AI）技术与智能手机和基站之间的无线接入网（RAN，Radio Access Network）相结合的下一代通信技术。近期，AI‑RAN Alliance 通过三个工作组（WG）开展智能网络研究。

AI‑for‑RAN WG：研究利用 AI 提升频谱效率、降低网络运营成本等，以提高无线通信本身性能的技术。
AI‑and‑RAN WG：研究将无线通信基础设施用于 AI 驱动的资源管理和基础设施利用最大化的方案。
AI‑on‑RAN WG：研究基于无线网络的全新 AI 应用与服务的发掘技术。

![그림 1: AI‑RAN Alliance 조직 구성 및 역할]( 图 1：AI‑RAN Alliance 组织结构及角色 )

Samsung Research 下一代通信研究中心的目标是超越通信性能提升，在网络全域应用 AI。本文分享了在 RAN 中首次为基站开发定制化 AI 模型及训练/推理模块的经验。

通信网络是速度快且资源受限的实时计算环境之一，AI 模型要按预期工作必须了解这种特殊环境。基站已经在通信处理上占用了大量 CPU 资源，难以为 AI 推理/训练分配专用资源。由于 0.5 ms 以内必须完成原有逻辑 + 推理的时延要求，需比普通 AI 模型更快的推理速度。此外，还必须尽量降低每个基站安装、运营 GPU 等额外硬件的成本，并通过模型轻量化与优化，在不增加资源的前提下部署 AI 模型。

![그림 2: 기지국 제약사항]( 图 2：基站约束条件 )

为基站定制的 AI 模型的‘现场培训’

在将 AI‑RAN 应用 AI 模型时，现实问题之一是每个基站所在环境的通信数据特性各不相同。由于地区特性差异，持续在各基站环境中学习现场数据并更新模型非常重要。

市区：由于高层建筑导致阴影区和多路径现象。应用能够处理这些问题的 AI 模型有助于避免干扰。
郊区：服务范围广阔，且信号质量随用户位置而异。通过 AI 模型实现符合地形和用户分布的功率控制，可均衡提升信号质量。
高速公路周边：车辆移动速度快，基站切换频繁。应用移动模式预测和切换时机判断的 AI 模型可以降低延迟。

그림 3: Case별 기지국 환경 특성

框架应用方案 – 利用闲置时段资源

一般来说基站在白天使用率高，深夜流量下降。我们团队专注于将深夜闲置资源用于边缘计算基础设施。通过在CPU使用率低的时段（深夜）将剩余CPU用于模型训练，能够在不降低通信质量（QoS）和不增加延迟的情况下，保持或提升AI模型的准确性。

图 4: 基站资源使用趋势

AI for RAN 实现目标与预期效果

AI for RAN 旨在通过 AI 提升 RAN 性能。我们的团队在流量高峰时进行 AI 推理和数据收集，在空闲时进行模型训练，以学习最新的通信模式并获取最佳参数。通过此方式，基站能够更稳定地容纳更多用户并增加有效传输数据量。

图 5: 基站 AI 应用周期

应用的 AI 推理加速技术

基站需要在毫秒（ms）级别进行实时处理。最初的 AI 模型必须在既定时间内与现有通信运算一起完成推理，这就必须进行推理加速。目前大多数基站使用的是没有 GPU 的 Intel CPU 服务器。为了在维护现有基础设施的同时仅使用 CPU 完成推理，我们采用了多种优化方法。

基于 SIMD 的优化

通过 SIMD（Single Instruction, Multiple Data）优化，利用寄存器进行并行计算，最大化重复处理，并改进数据对齐和内存连续性以提升缓存命中率。在实验环境中使用 Intel® AVX‑512（Advanced Vector Extensions 512）指令集，借助 512 位寄存器的向量运算实现了更快的计算速度。

图 6：标量运算与向量运算比较

利用 AMX 矩阵运算

在 Intel® Xeon® Scalable 处理器中引入的 Intel® AMX（Advanced Matrix Extensions）矩阵运算指令集也被用于实验。在特定条件下，卷积运算性能提升超过 3 倍，验证了即使在没有 GPU 的基站上也能部署复杂的 AI 模型。通过 AMX，推理速度相较于传统标量运算大幅缩短，同时保持了准确性和通信性能，并且在相同硬件上能够处理更多流量。

图 7：AVX‑512 与 AMX 运算比较

结语：面向基站定制 AI 模型的四大核心要素

그림 8: 네 가지 AI‑RAN 적용 요소

本项目围绕 四大核心要素 开发，旨在使基站 AI 模型能够在现场成功落地并持续演进。未来计划构建能够整合这些要素的框架。

解决 RAN 限制的优化技术
- 考虑到无 GPU 环境，采用基于 CPU 的 SIMD 并行处理和 AMX 矩阵运算，实现了通信性能与 AI 推理速度的平衡。
能够应对硬件变更的设计
- 推理加速库在设计时考虑了寄存器容量、数据类型等硬件特性，未来也能灵活适配新的指令集。
针对多种通信场景的现场训练（On‑Site Training）
- 利用深夜闲置资源对现场数据进行学习和微调，使框架能够自行适应多种场景并持续提升准确度。
易于与基站软件集成的框架
- 构建了使 AI 功能能够无缝与现有通信软件协同工作的统一框架，便于与基站软件·硬件轻松对接，实现实时通信与 AI 推理的稳定共存。

Samsung Research 下一代通信研究中心计划打造 “智能基站（Intelligent Node）”，使所有基站能够高效利用资源，实现 AI 与通信的顺畅共存。

谢谢。

适用于基站的 AI 模型：On-Site Training 与推理加速

介绍

什么是 AI‑RAN？

为基站定制的 AI 模型的‘现场培训’

框架应用方案 – 利用闲置时段资源

AI for RAN 实现目标与预期效果

应用的 AI 推理加速技术

基于 SIMD 的优化

利用 AMX 矩阵运算

结语：面向基站定制 AI 模型的四大核心要素

相关文章

Agentic Search 系统构建记：我们为重新定义内部搜索环境所选择的东西

RAG的进化：超越搜索，进入理解我的“Personal Context”时代

外部审计师任命公告

为什么你的 AI 代理不应该拥有你的 API 密钥（以及该怎么办）