[Paper] Nalar: 에이전트 서빙 프레임워크

발행: 1개월 전 (2026년 1월 9일 오전 01:56 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.05109v1

Overview

이 논문은 대규모 언어 모델(LLM)‑구동 에이전트를 위한 목적‑특화 서빙 프레임워크 Nalar를 소개합니다. 에이전트 워크플로우가 what 해야 하는지와 how 실행되는지를 명확히 분리함으로써, Nalar는 개발자가 일반적인 Python 코드를 작성하도록 허용하고 시스템은 오케스트레이션, 상태 관리, 지연‑인식 스케줄링을 처리합니다. 그 결과 복잡하고 다단계 AI 애플리케이션에서 꼬리 지연이 크게 감소하고 처리량이 향상됩니다.

Key Contributions

Unified workflow abstraction – 에이전트와 도구가 일반 파이썬 함수로 표현되며; Nalar는 종속성 및 실행 컨텍스트를 캡처하는 경량 future 스텁을 자동으로 생성합니다.
Managed state layer – 논리적 상태가 물리적 위치와 분리되어, 프로그래머 수준의 부가 작업 없이 안전한 재사용, 마이그레이션 및 결정론적 재시도를 가능하게 합니다.
Two‑level control architecture – 글로벌 정책 엔진이 고수준 라우팅 및 자원 정책을 계산하고, 로컬 이벤트 기반 컨트롤러가 이를 실시간으로 적용합니다.
Policy‑driven adaptive scheduling – 관측된 지연시간, 워크로드 특성 및 SLA 제약을 기반으로 동적 라우팅, 로드 밸런싱 및 자원 제한을 지원합니다.
Scalable runtime – 500 ms 미만의 제어 오버헤드로 130 K 이상의 동시 future 를 처리하고, 기존 베이스라인이 붕괴되는 상황에서도 80 RPS 를 지속할 수 있음을 입증했습니다.

방법론

Future‑based API – 개발자가 에이전트나 도구를 호출하면, Nalar는 해당 호출을 future 객체로 대체합니다. 이 객체는 호출 입력, 필요한 리소스 및 모든 하위 종속성을 기록합니다. future는 독립적으로 스케줄링할 수 있는 가벼운 플레이스홀더입니다.
State abstraction – 모든 가변 데이터는 관리되는 상태 저장소에 존재합니다. 저장소는 간단한 키‑값 인터페이스를 제공하지만 내부적으로 버전 관리와 배치를 추적하여 런타임이 상태를 머신 간에 이동하거나 작업을 재시도할 때 사용자 데이터를 손상시키지 않도록 합니다.
Control hierarchy
- Global policy engine: 시스템 전체 메트릭(예: 큐 길이, 지연 히스토그램)을 주기적으로 평가하고 라우팅 및 스케일링 결정을 내보냅니다.
- Local controllers: 각 워커 노드에 부착되어 정책 업데이트를 수신하고 작업 큐 조정, 호출 제한, future 마이그레이션 등을 통해 이를 적용합니다.
Evaluation workloads – 저자들은 세 가지 대표적인 에이전트형 애플리케이션(예: 다중 도구 계획, 외부 API와 연동된 대화형 어시스턴트, 자동 데이터 파이프라인 오케스트레이션)을 구축하고, Nalar를 일반적인 Python‑asyncio 베이스라인 및 상용 서버리스 오케스트레이터와 비교했습니다.

결과 및 발견

지표	기준	Nalar	개선
99번째 백분위수 지연 시간	1.8 초	0.5 초 – 1.2 초	34 % – 74 % 감소
처리량 (초당 요청 수)	30 RPS (40 RPS 초과 시 실패)	80 RPS (안정)	~2.7배 증가
엔드‑투‑엔드 가속 (평균)	1.0배	1.8배 – 2.9배	최대 2.9배
제어 오버헤드 (1 k futures당)	1.2 초	0.48 초	~60 % 감소
최대 동시 futures 처리량	약 30 K	130 K	>4배 확장

실험 결과, Nalar의 적응형 라우팅 및 상태 관리가 장시간 실행되고 지연에 민감한 에이전트 파이프라인이 급증하는 트래픽 패턴에서도 정체되지 않도록 유지한다.

Practical Implications

Simplified developer experience – 팀은 기존 Python 코드베이스를 유지할 수 있으며, 에이전트를 마이크로서비스로 재작성하거나 맞춤형 오케스트레이션 로직을 삽입할 필요가 없습니다.
Cost‑effective scaling – 작업을 자동으로 제한하고 마이그레이션함으로써 Nalar는 컴퓨팅 자원의 과다 프로비저닝을 줄이며, 이는 클라우드 네이티브 AI 서비스에 유용합니다.
Robustness for production AI – 결정론적 재시도와 상태 마이그레이션을 통해 외부 API(예: 결제 게이트웨이, 지식 베이스)가 일시적으로 사용 불가능해질 때 “유령” 오류가 감소합니다.
Policy hooks for SLAs – 운영자는 애플리케이션 코드를 수정하지 않고도 글로벌 컨트롤러에 비즈니스 수준 정책(예: 프리미엄 사용자 우선순위 지정, 사용자당 속도 제한 적용)을 직접 인코딩할 수 있습니다.
Foundation for “agent‑as‑a‑service” platforms – 다중 에이전트 마켓플레이스를 구축하는 기업은 Nalar를 연결하여 이기종 도구 세트(검색, DB 접근, 코드 실행 등)를 지원하면서 낮은 꼬리 지연 시간을 보장할 수 있습니다.

제한 사항 및 향후 작업

Python 중심 워크로드 가정 – 현재 스텁 생성 및 상태 API가 Python에 종속되어 있어, 다른 언어 또는 다중 언어 환경으로 확장하려면 추가 엔지니어링이 필요합니다.
제어 루프 지연 – 500 ms 미만의 오버헤드는 적지만, 초저지연 사용 사례(예: 고빈도 트레이딩 봇)에서는 제어 지연이 병목이 될 수 있습니다.
외부 도구 신뢰성 – Nalar는 타사 서비스로 인한 지연 스파이크를 완화할 수 있지만 완전히 제거하지는 못합니다; 향후 작업에서는 예측 모델링을 통합해 사전에 호출을 재라우팅할 수 있습니다.
보안 및 다중 테넌트 격리 – 이 논문은 성능에 초점을 맞추고 있으며, 다중 테넌트 배포에서 공유 상태에 대한 강력한 샌드박스와 세분화된 접근 제어는 아직 연구가 필요한 영역입니다.

전반적으로 Nalar는 복잡한 LLM 기반 에이전트 파이프라인을 개발자 민첩성을 희생하지 않고 프로덕션 수준 서비스로 전환하기 위한 설득력 있는 청사진을 제공합니다. 미래 기반 오케스트레이션, 관리형 상태, 정책 기반 제어의 조합은 차세대 AI 인프라의 핵심이 될 수 있습니다.

저자

Marco Laju
Donghyun Son
Saurabh Agarwal
Nitin Kedia
Myungjin Lee
Jayanth Srinivasa
Aditya Akella

논문 정보

arXiv ID: 2601.05109v1
분류: cs.DC, cs.MA
발행일: 2026년 1월 8일
PDF: PDF 다운로드

[Paper] Nalar: 에이전트 서빙 프레임워크

Overview

Key Contributions

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 Federated Domain Generalization을 위한 Multi-Modal Style Transfer 기반 Prompt Tuning

[Paper] Performance-Portable 최적화 및 다중 오른쪽 항에 대한 분석 in a Lattice QCD Solver

[Paper] LACIN: 선형 배열 완전 상호 연결 네트워크

[Paper] 확장 가능한 AI 시스템을 위한 자체 진화형 분산 메모리 아키텍처