[Paper] 아라고그: 에이전트 워크플로우의 확장 가능한 서빙을 위한 실시간 모델 라우팅
Source: arXiv - 2511.20975v1
개요
Aragog은 오늘날 AI 기반 서비스에서 급증하고 있는 에이전트형 워크플로우—여러 LLM 호출을 연결하는 다단계 파이프라인—를 컴퓨팅 비용이나 지연 시간을 크게 늘리지 않고 제공하는 문제를 해결합니다. 워크플로우가 실행되는 도중에 각 요청을 가장 적합한 모델 구성으로 동적으로 라우팅함으로써, Aragog은 가장 비싼 정적 설정과 동등한 답변 품질을 유지하면서 처리량을 크게 높이고 지연 시간을 낮춥니다.
주요 기여
- 즉시 구성 라우팅: 현재 시스템 부하를 기반으로 워크플로우 중간에 모델 선택을 전환할 수 있는 런타임 인식 스케줄러를 도입했습니다.
- 두 단계 분리: (1) 정확도를 유지하는 모든 구성을 열거하는 라우팅 단계와 (2) 실행 시에 최적 구성을 선택하는 가벼운 단계별 스케줄러로 문제를 분할합니다.
- 확장 가능한 가속 기술: 가능한 모델 할당의 조합 폭발에도 라우팅 단계를 실용적으로 유지하기 위해 새로운 가지치기와 캐싱 방법을 제시합니다.
- 실증적 성과: 실제 워크플로우 집합에서 피크 처리량이 50–217 % 증가하고 중간 지연 시간이 33–79 % 감소했으며, 출력 품질에 측정 가능한 손실이 없음을 보여줍니다.
방법론
- 워크플로우 모델링 – 각 에이전트형 워크플로우를 노드가 LLM 추론 단계이고 간선이 데이터 의존성을 나타내는 방향성 비순환 그래프로 표현합니다.
- 구성 공간 생성 – 각 노드마다 후보 LLM(크기, 양자화 방식, 제공자 등)의 집합을 정의합니다. 시스템은 먼저 정적 분석을 수행해 사용자가 지정한 정확도 임계값을 초과하는 구성을 가지치기합니다.
- 일회성 라우팅 – 가지치기된 공간을 활용해 Aragog은 실현 가능한 종단 간 구성을 압축한 조회 테이블을 구축합니다. 이 단계는 워크플로우 배포당 한 번 실행되며, 지배성 필터링과 같은 휴리스틱을 사용해 테이블 크기를 최소화합니다.
- 단계별 스케줄러 – 런타임에 가벼운 컨트롤러가 CPU/GPU 사용량, 대기열 길이, 지연 시간 예산을 모니터링합니다. 각 노드 실행 전, 스케줄러는 현재 자원 제약을 만족하면서도 가장 저렴한 구성을 조회 테이블에서 선택합니다. 시스템 부하가 급증하면 스케줄러는 고비용·고정확도 모델을 저비용 대안으로 즉시 교체할 수 있습니다.
- 피드백 루프 – 실행 메트릭을 지속적으로 스케줄러의 비용 모델에 반영해 워크로드 변화에 따라 최적 결정을 유지합니다.
결과 및 발견
| 지표 | 기준(정적 구성) | Aragog | 향상 |
|---|---|---|---|
| 최대 처리량 | 1,000 req/s | 1,500–2,170 req/s | +50 % ~ +217 % |
| 중간 지연 시간 (90 % 부하) | 1.2 s | 0.26–0.81 s | –33 % ~ –79 % |
| 작업 정확도 | 최고 비용 정적 구성 | 최고 비용 정적 구성과 동일 | ≈ 0 % 손실 |
- 부하 변동에 대한 견고성: 요청률이 실행 중에 두 배로 증가했을 때, Aragog은 자동으로 단계들을 가벼운 모델로 마이그레이션해 대기열 축적을 방지했습니다.
- 모델에 독립적: OpenAI, Anthropic, 오픈소스 LLM 계열을 아우르는 실험을 통해 이 접근법이 이질적인 백엔드에서도 동작함을 확인했습니다.
- 무시할 정도의 오버헤드: 단계별 스케줄러는 < 2 ms의 결정 지연만을 추가하며, 추론 시간 절감 효과에 비해 매우 작습니다.
실용적 함의
- 비용 효율적 확장: 클라우드 제공업체와 SaaS 플랫폼은 동일한 하드웨어 예산으로 더 많은 동시 에이전트 세션을 실행할 수 있어 운영 비용(OPEX)을 절감합니다.
- 동적 SLA: 트래픽 급증 시 저비용 모델로 전환하고, 유휴 시 다시 고정확도 모델로 복귀함으로써 지연 목표를 보장할 수 있습니다.
- 운영 간소화: 엔지니어가 워크플로우별 모델 할당을 수동으로 튜닝할 필요가 없어지고, Aragog의 자동 라우팅이 무거운 작업을 담당합니다.
- 에이전트 파이프라인의 폭넓은 채택: 낮은 지연 시간과 비용 장벽 덕분에 코드 어시스턴트, 대화형 에이전트, 자동 데이터 파이프라인 등 실시간 제품에 다단계 LLM 추론을 삽입하는 것이 현실화됩니다.
제한점 및 향후 연구
- 정적 라우팅 비용: 일회성 라우팅 단계는 수백 개 노드가 있는 매우 큰 워크플로우에서는 비용이 많이 들 수 있어, 보다 스마트한 증분 업데이트가 필요합니다.
- 정확도 추정: 현재 가지치기는 오프라인 벤치마크에 의존하므로, 온라인 품질 모니터링을 통합하면 비용‑정확도 트레이드오프를 더욱 강화할 수 있습니다.
- 하드웨어 이질성: 실험은 GPU 중심 클러스터에 초점을 맞췄으며, CPU, TPU, 엣지 디바이스로 스케줄러를 확장하는 것이 남은 과제입니다.
- 다중 테넌트 공정성: 향후 버전에서는 공유 모델 자원을 놓고 경쟁하는 테넌트 간 공정성을 고려해야 합니다.
Aragog은 “즉시 모델 라우팅”이 복잡한 LLM 기반 애플리케이션을 확장하는 실용적인 경로임을 입증하며, 개발자에게 비용, 지연 시간, 품질을 균형 있게 조절할 수 있는 강력한 새로운 레버를 제공합니다.
저자
- Yinwei Dai
- Zhuofu Chen
- Anand Iyer
- Ravi Netravali
논문 정보
- arXiv ID: 2511.20975v1
- 분류: cs.DC
- 발표일: 2025년 11월 26일
- PDF: Download PDF