[논문] 지연 최적화를 위한 웹 에이전트 계획·스케줄링의 에이전트 JIT 컴파일

발행: (2026년 5월 21일 AM 02:54 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2605.21470v1

Overview

이 논문은 에이전트 즉시 컴파일(JIT) 방식을 소개한다. 이는 “가장 저렴한 Taco Bell 아이템을 주문해줘”와 같은 자연어 작업 설명을 웹 자동화 에이전트를 위한 빠르고 신뢰할 수 있는 실행 코드로 변환하는 새로운 방법이다. 전체 플랜을 미리 컴파일하고 각 단계마다 LLM 호출을 반복하는 방식을 없앰으로써, 저자들은 지연 시간을 크게 줄이고 실제 웹 작업에서 성공률을 향상시켰다.

Key Contributions

  • JIT‑Planner: 여러 후보 코드 플랜을 생성하고, 도구 사양에 대해 검증한 뒤, 비용이 가장 낮고 정확도가 높은 플랜을 선택한다.
  • JIT‑Scheduler: 학습된 지연 모델을 이용한 몬테카를로 비용 추정으로 안전한 병렬 실행 전략을 찾아낸다.
  • Invariant‑Enforcing Tool Protocol: 각 도구(클릭, 입력, 스크롤 등)의 전후 조건을 정의해 잘못된 도구 사용을 크게 감소시킨다.
  • Empirical Gains: 다섯 개 웹 애플리케이션에 걸쳐, JIT 접근법은 기존 순차적인 Browser‑Use 루프 대비 10.4배 속도 향상+28 % 정확도를 달성했으며, 스케줄러를 추가하면 기존 OpenAI CUA 베이스라인 대비 추가 2.4배 속도+9 % 정확도가 향상된다.

Methodology

  1. Task → Code Compilation

    • 자연어 요청을 대형 언어 모델(LLM)에 입력하면, LLM은 단계별 텍스트 플랜이 아니라 코드를 출력한다.
    • 생성된 코드는 추가 LLM 호출, 직접 도구 호출, 제어 흐름 구조(루프, 조건문)를 포함할 수 있다.
  2. Plan Generation & Validation (JIT‑Planner)

    • 시스템은 LLM에 여러 대안 코드 스니펫을 생성하도록 요청한다.
    • 각 스니펫은 도구 프로토콜에 정의된 입력 형태와 기대 출력 상태(전/후 조건)를 정적으로 검사한다.
    • 비용 모델(예상 실행 시간, API 사용량)을 통해 후보들을 순위 매기고, 가장 저렴하면서도 유효한 플랜을 선택한다.
  3. Parallelization Search (JIT‑Scheduler)

    • 스케줄러는 독립적인 도구 호출을 동시에 실행할 방법을 탐색한다(예: 여러 탭 열기, 데이터 미리 가져오기).
    • 이전 실행에서 학습된 지연 분포를 샘플링하고, 몬테카를로 시뮬레이션을 수행해 각 병렬 스케줄의 총 실행 시간을 추정한다.
    • 도구 불변성을 만족하면서 기대 지연이 가장 낮은 스케줄을 선택한다.
  4. Execution Engine

    • 최종 컴파일된 프로그램은 경량 런타임 위에서 실행되며, LLM 호출, 도구 API, 병렬 작업을 조율하고, 생성된 코드에 내장된 재시도 로직으로 오류를 처리한다.

Results & Findings

MetricBaseline (Browser‑Use)JIT‑PlannerJIT‑Scheduler (Planner 위에 적용)
Speedup1× (reference)10.4×추가 2.4×
Task Accuracy68 %+28 % (≈87 %)+9 % (≈96 %)
Error Type빈번한 도구 오용(잘못된 클릭 대상)불변성 검사 덕분에 70 % 감소병렬 재시도로 추가 감소

핵심 요약

  • 전체 플랜을 컴파일하면 단계별 LLM 라운드트립을 없앨 수 있는데, 이것이 지연 시간의 주요 원인이다.
  • 컴파일 시점에 도구 불변성을 강제하면 실행 전 많은 실수를 잡아내어 전체 성공률이 상승한다.
  • 학습된 지연 모델이 안내하는 병렬 실행은 안전하지만, 무분별한 병렬화는 오류를 증가시킬 수 있다. 스케줄러는 이러한 함정을 피한다.

Practical Implications

  • Developer Tooling: SDK가 “compile‑agent” API를 제공해 주어진 자연어 작업에 대해 바로 실행 가능한 Python/JS 코드를 반환하도록 하면, 개발자는 LLM 호출 루프를 관리하지 않고도 강력한 웹 에이전트를 삽입할 수 있다.
  • Enterprise Automation: 기업은 반복적인 웹 워크플로(주문 처리, 데이터 입력, UI 테스트)를 지연 시간을 크게 낮춘 상태로 자동화할 수 있어 실시간 지원이 가능해진다.
  • Cost Reduction: LLM 호출 횟수가 감소하면 API 비용이 직접 줄어들며, 특히 고처리량 자동화 파이프라인에서 효과가 크다.
  • Scalable Bot Farms: 병렬 스케줄링을 통해 단일 서버에서 수십 개의 독립적인 브라우저 동작을 동시에 실행할 수 있어, 대규모 스크래핑·모니터링 서비스의 처리량이 향상된다.
  • Safety & Debugging: 불변성 기반 검증으로 생성된 결정론적 코드는 린트, 단위 테스트, 버전 관리가 가능해 “블랙박스” LLM 에이전트와 전통적인 소프트웨어 엔지니어링 사이의 격차를 메운다.

Limitations & Future Work

  • Domain Specificity: 평가가 다섯 개 웹 앱에 한정돼 있어, 더 다양한 사이트(동적 SPA, 무거운 JavaScript)로 확장하려면 더 풍부한 도구 사양이 필요할 수 있다.
  • Latency Model Generalization: 몬테카를로 비용 추정은 이전 실행 데이터에 의존하므로, 콜드 스타트 상황에서는 예측이 부정확할 수 있다.
  • Complex Reasoning: 가격 협상처럼 깊은 다회전 추론이 필요한 작업은 여전히 반복적인 LLM 피드백 루프가 유리할 수 있는데, 현재 JIT 파이프라인은 이를 자연스럽게 지원하지 않는다.
  • Future Directions: 저자들은 지연 분포에 대한 적응형 학습 통합, UI 기본 요소를 포괄하는 도구 프로토콜 확대, 컴파일 신뢰도가 낮을 때 순차 플래닝으로 되돌아가는 하이브리드 파이프라인 탐색 등을 제안한다.

Authors

  • Caleb Winston
  • Ron Yifeng Wang
  • Azalia Mirhoseini
  • Christos Kozyrakis

Paper Information

  • arXiv ID: 2605.21470v1
  • Categories: cs.LG, cs.AI
  • Published: May 20, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »