llm-d가 SoftBank의 AI-RAN 오케스트레이터와 함께 중요한 자원 최적화를 구현하는 방법
Source: Red Hat Blog
AI‑RAN의 기술적 현실이 명확해짐에 따라, 많은 통신 서비스 제공업체들은 이제 AI와 무선 접속 네트워크(RAN)를 동일한 하드웨어에서 실행할 수 있는지 여부만이 문제가 아니라, AI를 대규모로 어떻게 관리하느냐가 중요하다는 것을 깨닫고 있습니다.
Red Hat가 SoftBank Corp.와 진행한 최신 협업에서, 우리는 llm‑d를 SoftBank의 AI‑RAN 오케스트레이터 AITRAS에 통합했습니다. Red Hat와 다른 업계 리더들이 공동 설립한 llm‑d 는 대규모 언어 모델(LLM)의 추론을 RAN 내에서 동적으로 그리고 지능적으로 분산시켜 보다 효율적이고 성능을 향상시키도록 설계된 오픈소스 프레임워크입니다.
문제: 서비스 제공자 엣지에서 AI와 RAN 워크로드 통합
전통적인 RAN 애플리케이션은 서비스 제공자가 엣지에서 CPU와 GPU를 활용해 널리 배포하고 있으며, 종종 Red Hat OpenShift와 같은 Kubernetes 플랫폼을 이용합니다. 최근 GenAI와 트랜스포머 기반 언어 모델의 급증은 엣지에서 새로운 형태의 계산과 인사이트를 가능하게 하고 있습니다. 전통적인 RAN 외에도 AI 기반 RAN 애플리케이션 및 에이전트가 존재하며, 이들은 엣지에서 런타임 및 추론 엔드포인트를 필요로 합니다.
서비스 제공자에게 중요한 질문은 전통적인 RAN과 이러한 새로운 언어 모델 및 에이전트를 RAN 위치에서 어떻게 공존시켜 새로운 사용 사례를 열고 가치를 창출하며 수익화를 이룰 수 있느냐는 것입니다. 이러한 통합은 운영 비용(OpEx)을 절감하고 새로운 수익 창출 엣지 서비스의 시장 출시 시간을 가속화하는 데 필수적입니다.
AI‑RAN을 상업적으로 실현 가능하게 만들기 위해서는 서비스 제공자가 AI 워크로드를 클라우드 네이티브 네트워크 기능(CNF) 및 애플리케이션과 동일한 유연성으로 다루어야 합니다. 여기서 SoftBank와 Red Hat가 llm‑d와 vLLM을 활용해 AI‑RAN 협업을 진행하게 됩니다.
llm‑d: 추론과 오케스트레이터를 연결하는 다리
vLLM 은 단일 GPU 노드에서 고성능 모델 배포를 제공하는 오픈소스 AI 추론 분야의 리더로 부상했습니다. 그러나 복잡하고 다중 노드에 걸친 배포를 관리하도록 설계되지 않았습니다. 바로 이 문제를 해결하기 위해 llm‑d 가 만들어졌습니다. Kubernetes 를 활용하여 llm‑d 는 vLLM 을 여러 노드에 걸쳐 오케스트레이션함으로써 프로덕션 규모의 AI 추론을 가능하게 하고, vLLM 의 효율성을 분산 환경으로 확장합니다.
llm‑d 를 SoftBank AITRAS 오케스트레이터에 통합함으로써 서비스 제공자는 다음과 같은 주요 돌파구를 얻습니다:
- 통합 AI 및 RAN 워크로드: AITRAS 는 여러 GPU 클러스터에 걸쳐 RAN 워크로드와 LLM 요청을 오케스트레이션하고 최적화하며, llm‑d 와 vLLM 은 (프리픽스, KV‑캐시, 로드 인식) 방식으로 추론 요청을 GPU 로 지능적으로 라우팅해 GPU 자원을 원활히 관리하고 자동 스케일링을 구현합니다.
- 하드웨어 인식 최적화: LLM 추론은 프리필 (프롬프트 처리, 연산 집약) 단계와 디코드 (메모리 대역폭 제한 토큰 생성) 단계라는 두 개의 구별되는 단계로 구성됩니다. llm‑d 는 AITRAS 가 이 단계들을 분리하도록 하여 각각에 특화된 GPU 자원을 동적으로 할당하게 합니다. 이를 통해 동일 하드웨어를 공유하는 중요한 RAN 기능이 고성능 AI 요구에 의해 자원을 빼앗기는 위험을 완화하고, 네트워크 복원력을 보호하며 모든 고객에게 우수한 서비스 품질(QoS)을 보장합니다.
- 가변 수요에 대한 자율 스케일링: LLM 서비스에 대한 사용자 요청은 매우 변동적입니다. llm‑d 는 AITRAS 가 워크로드 프로파일에 따라 프리필 및 디코드 워커 역할을 자동으로 할당하고 스케일링하도록 하여 지연 시간을 감소시키고 전력 소비를 개선하며, 총 소유 비용(TCO)을 낮추고 지속 가능성 목표를 지원합니다.
왜 이것이 5G와 6G의 미래에 중요한가
AITRAS에 llm‑d를 통합하면 에지에서 AI를 위한 운영 체제가 효과적으로 제공됩니다. 이를 통해 SoftBank는 Arm 기반 시스템을 포함한 전력 효율적인 아키텍처에서 고성능 추론 및 RAN 워크로드를 실행할 수 있게 되며, AI‑RAN이 차세대 모바일 네트워크에 필요한 확장성과 유연성을 달성할 수 있음을 입증합니다. 수동 설정에서 자동화된 llm‑d‑구동 배포 모델로 전환함으로써 서비스 제공업체는 에지 AI를 가로막아 왔던 운영 복잡성을 제거할 수 있습니다.
서비스 제공업체는 네트워크가 단순히 데이터를 전달하는 수준을 넘어, 데이터를 지능적이고 효율적으로 처리하는 시대에 진입하고 있습니다. 이 통합 결과에 대해 자세히 알아보려면 2026년 바르셀로나 MWC에서 열린 Red Hat 부스를 방문하십시오. 전문가들이 llm‑d와 AITRAS가 AI‑RAN의 약속을 어떻게 현실화하고 있는지 설명합니다.