[Paper] 소프트웨어 정의 Agentic 서빙

발행: (2026년 1월 7일 오전 02:22 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.03197v1

개요

이 논문은 Software-Defined Agentic Serving (SDAS) 를 소개한다. 이는 멀티‑에이전트 LLM 파이프라인을 실행하기 위한 새로운 프레임워크로, 서비스 레이어를 소프트웨어‑정의 네트워크처럼 취급한다. 프로그래머블 컨트롤 플레인을 노출함으로써, SDAS는 개발자가 실시간 부하, 지연 시간, 작업‑특정 신호에 기반하여 에이전트 간의 통신 방식을 동적으로 조정할 수 있게 해준다—이는 기존의 정적 서비스 스택에서는 할 수 없는 기능이다.

주요 기여

  • SDN‑영감을 받은 LLM 에이전트 아키텍처제어 평면(정책, 라우팅, 스케일링)과 데이터 평면(실제 LLM 추론)을 분리하여 실시간 재구성을 가능하게 함.
  • 선언형 의도 언어 – 개발자는 고수준 목표(예: “사용자 쿼리의 지연 시간을 최소화” 또는 “규정 준수 검사의 정확성을 우선시”)를 표현하고 시스템이 이를 구체적인 서빙 작업으로 변환하도록 할 수 있음.
  • 동적 통신 제어 – 에이전트 간 메시지의 런타임 인식 라우팅, 자동 로드 밸런싱, 현재 자원 활용도에 기반한 적응형 배칭을 제공함.
  • 프로토타입 구현 및 벤치마크 스위트 – 인기 있는 LLM 서빙 스택(vLLM, TGI) 위에 구축하고 현실적인 다중 에이전트 워크플로(질문 응답, 도구 보강 추론, 자동 코드 생성)에서 평가함.
  • 성능 향상 입증 – 정적 파이프라인에 비해 종단 간 지연 시간이 최대 2.3배 감소하고 GPU 메모리 사용량이 30 % 감소함.

Methodology

  1. System Design – 저자들은 서빙 스택을 그래프로 모델링합니다. 여기서 노드는 LLM 에이전트(또는 도구 호출 서비스)이며, 엣지는 통신 채널을 나타냅니다. 컨트롤러는 메트릭( GPU 활용도, 큐 길이, 요청 우선순위)을 감시하고 각 에이전트 앞에 위치한 스위치에 정책을 푸시합니다.
  2. Policy Language – 경량 DSL을 사용해 엔지니어가 제약 조건(예: “max‑latency < 200 ms”)과 선호도(예: “위험이 낮은 단계에서는 더 저렴한 모델 사용”)를 선언할 수 있습니다. 컨트롤러는 이를 라우팅 테이블 및 배칭 규칙으로 컴파일합니다.
  3. Runtime Adaptation – 피드백 루프를 활용해 컨트롤러가 주기적으로 텔레메트리를 샘플링하고, 경량 최적화기(선형 계획법 또는 규칙 기반 휴리스틱)를 실행하여 서비스를 재시작하지 않고 데이터 플레인을 업데이트합니다.
  4. Evaluation – 프로토타입은 세 가지 대표 파이프라인을 실행합니다: (a) 검색이 포함된 다중 턴 QA, (b) 도구가 결합된 플래닝(코드 생성 + 실행 샌드박스), (c) 웹 작업 자동화를 위한 자율 에이전트. 각 워크로드는 다양한 요청 속도와 GPU 예산 하에서 테스트되며, SDAS를 정적 오케스트레이터 기반 베이스라인과 비교합니다.

Results & Findings

MetricBaseline (static)SDAS (dynamic)Improvement
99‑th‑percentile latency420 ms180 ms2.3× faster
Average GPU memory usage12 GB8.4 GB30 % reduction
Throughput (queries / s)4562~38 % increase
Policy compliance (latency SLA met)78 %96 %+18 pp

Key takeaways

  • Adaptive batching → 적응형 배칭은 요청 패턴이 급증할 때 특히 GPU 유휴 사이클을 줄여줍니다.
  • Dynamic routing → 동적 라우팅은 핫스팟을 방지하고, 과부하된 에이전트를 자동으로 여분의 복제본으로 오프로드합니다.
  • The intent‑driven DSL lets non‑ML engineers tweak serving behavior without touching low‑level code → intent 기반 DSL을 사용하면 비ML 엔지니어가 저수준 코드를 건드리지 않고 서빙 동작을 조정할 수 있습니다.

Practical Implications

  • Faster user experiences for AI‑powered products (chatbots, code assistants) because the serving layer can react instantly to traffic spikes or latency spikes. → AI 기반 제품(채팅봇, 코드 어시스턴트)의 사용자 경험이 빨라짐 – 서빙 레이어가 트래픽 급증이나 지연 급증에 즉시 대응할 수 있기 때문입니다.
  • Cost savings: By shrinking memory footprints and improving GPU utilization, cloud‑based LLM services can run more workloads per GPU, lowering operational expenses. → 비용 절감: 메모리 사용량을 줄이고 GPU 활용도를 높여 클라우드 기반 LLM 서비스가 GPU당 더 많은 워크로드를 실행할 수 있어 운영 비용이 낮아집니다.
  • Simplified ops: Teams can encode business‑level SLAs (e.g., “high‑accuracy for finance queries”) in the DSL, letting the system enforce them automatically—reducing the need for manual tuning. → 운영 간소화: 팀이 비즈니스 수준 SLA(예: “금융 질의에 대한 고정밀”)를 DSL에 인코딩하면 시스템이 자동으로 이를 강제 적용해 수동 튜닝 필요성을 줄입니다.
  • Extensibility: The SDAS model can be layered on top of existing serving frameworks (Ray Serve, vLLM, TGI), making it a drop‑in upgrade for organizations already running multi‑agent pipelines. → 확장성: SDAS 모델을 기존 서빙 프레임워크(Ray Serve, vLLM, TGI) 위에 레이어링할 수 있어, 이미 멀티‑에이전트 파이프라인을 운영 중인 조직에 바로 적용 가능한 업그레이드가 됩니다.

제한 사항 및 향후 작업

  • 프로토타입 범위 – 현재 구현은 단일 노드 GPU 클러스터를 대상으로 하며, 제어 플레인을 다중 노드 데이터 센터로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 정책 언어 표현력 – DSL이 일반적인 지연시간/정확도 제약을 다루지만, 보다 복잡한 QoS 정책(예: 테넌트 간 공정성)에는 더 풍부한 의미론이 필요합니다.
  • 보안 고려사항 – 동적 라우팅은 에이전트를 의도치 않은 트래픽에 노출시킬 수 있으며, 저자들은 강력한 인증 및 샌드박싱의 필요성을 언급합니다.
  • 향후 방향에는 분산 컨트롤러 설계, 컨테이너 오케스트레이션(Kubernetes)과의 통합, 그리고 보다 세밀한 적응을 위한 강화 학습 기반 정책 최적화 탐색이 포함됩니다.

저자

  • Saurabh Agarwal
  • Marco Laju
  • Jayanth Srinivasa
  • Myungjin Lee
  • Aditya Akella

논문 정보

  • arXiv ID: 2601.03197v1
  • 분류: cs.DC, cs.MA
  • 출판일: 2026년 1월 6일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »