[논문] 지연 최적화를 위한 웹 에이전트 계획·스케줄링의 에이전트 JIT 컴파일
Source: arXiv - 2605.21470v1
Overview
이 논문은 에이전트 즉시 컴파일(JIT) 방식을 소개한다. 이는 “가장 저렴한 Taco Bell 아이템을 주문해줘”와 같은 자연어 작업 설명을 웹 자동화 에이전트를 위한 빠르고 신뢰할 수 있는 실행 코드로 변환하는 새로운 방법이다. 전체 플랜을 미리 컴파일하고 각 단계마다 LLM 호출을 반복하는 방식을 없앰으로써, 저자들은 지연 시간을 크게 줄이고 실제 웹 작업에서 성공률을 향상시켰다.
Key Contributions
- JIT‑Planner: 여러 후보 코드 플랜을 생성하고, 도구 사양에 대해 검증한 뒤, 비용이 가장 낮고 정확도가 높은 플랜을 선택한다.
- JIT‑Scheduler: 학습된 지연 모델을 이용한 몬테카를로 비용 추정으로 안전한 병렬 실행 전략을 찾아낸다.
- Invariant‑Enforcing Tool Protocol: 각 도구(클릭, 입력, 스크롤 등)의 전후 조건을 정의해 잘못된 도구 사용을 크게 감소시킨다.
- Empirical Gains: 다섯 개 웹 애플리케이션에 걸쳐, JIT 접근법은 기존 순차적인 Browser‑Use 루프 대비 10.4배 속도 향상과 +28 % 정확도를 달성했으며, 스케줄러를 추가하면 기존 OpenAI CUA 베이스라인 대비 추가 2.4배 속도와 +9 % 정확도가 향상된다.
Methodology
-
Task → Code Compilation
- 자연어 요청을 대형 언어 모델(LLM)에 입력하면, LLM은 단계별 텍스트 플랜이 아니라 코드를 출력한다.
- 생성된 코드는 추가 LLM 호출, 직접 도구 호출, 제어 흐름 구조(루프, 조건문)를 포함할 수 있다.
-
Plan Generation & Validation (JIT‑Planner)
- 시스템은 LLM에 여러 대안 코드 스니펫을 생성하도록 요청한다.
- 각 스니펫은 도구 프로토콜에 정의된 입력 형태와 기대 출력 상태(전/후 조건)를 정적으로 검사한다.
- 비용 모델(예상 실행 시간, API 사용량)을 통해 후보들을 순위 매기고, 가장 저렴하면서도 유효한 플랜을 선택한다.
-
Parallelization Search (JIT‑Scheduler)
- 스케줄러는 독립적인 도구 호출을 동시에 실행할 방법을 탐색한다(예: 여러 탭 열기, 데이터 미리 가져오기).
- 이전 실행에서 학습된 지연 분포를 샘플링하고, 몬테카를로 시뮬레이션을 수행해 각 병렬 스케줄의 총 실행 시간을 추정한다.
- 도구 불변성을 만족하면서 기대 지연이 가장 낮은 스케줄을 선택한다.
-
Execution Engine
- 최종 컴파일된 프로그램은 경량 런타임 위에서 실행되며, LLM 호출, 도구 API, 병렬 작업을 조율하고, 생성된 코드에 내장된 재시도 로직으로 오류를 처리한다.
Results & Findings
| Metric | Baseline (Browser‑Use) | JIT‑Planner | JIT‑Scheduler (Planner 위에 적용) |
|---|---|---|---|
| Speedup | 1× (reference) | 10.4× | 추가 2.4× |
| Task Accuracy | 68 % | +28 % (≈87 %) | +9 % (≈96 %) |
| Error Type | 빈번한 도구 오용(잘못된 클릭 대상) | 불변성 검사 덕분에 70 % 감소 | 병렬 재시도로 추가 감소 |
핵심 요약
- 전체 플랜을 컴파일하면 단계별 LLM 라운드트립을 없앨 수 있는데, 이것이 지연 시간의 주요 원인이다.
- 컴파일 시점에 도구 불변성을 강제하면 실행 전 많은 실수를 잡아내어 전체 성공률이 상승한다.
- 학습된 지연 모델이 안내하는 병렬 실행은 안전하지만, 무분별한 병렬화는 오류를 증가시킬 수 있다. 스케줄러는 이러한 함정을 피한다.
Practical Implications
- Developer Tooling: SDK가 “compile‑agent” API를 제공해 주어진 자연어 작업에 대해 바로 실행 가능한 Python/JS 코드를 반환하도록 하면, 개발자는 LLM 호출 루프를 관리하지 않고도 강력한 웹 에이전트를 삽입할 수 있다.
- Enterprise Automation: 기업은 반복적인 웹 워크플로(주문 처리, 데이터 입력, UI 테스트)를 지연 시간을 크게 낮춘 상태로 자동화할 수 있어 실시간 지원이 가능해진다.
- Cost Reduction: LLM 호출 횟수가 감소하면 API 비용이 직접 줄어들며, 특히 고처리량 자동화 파이프라인에서 효과가 크다.
- Scalable Bot Farms: 병렬 스케줄링을 통해 단일 서버에서 수십 개의 독립적인 브라우저 동작을 동시에 실행할 수 있어, 대규모 스크래핑·모니터링 서비스의 처리량이 향상된다.
- Safety & Debugging: 불변성 기반 검증으로 생성된 결정론적 코드는 린트, 단위 테스트, 버전 관리가 가능해 “블랙박스” LLM 에이전트와 전통적인 소프트웨어 엔지니어링 사이의 격차를 메운다.
Limitations & Future Work
- Domain Specificity: 평가가 다섯 개 웹 앱에 한정돼 있어, 더 다양한 사이트(동적 SPA, 무거운 JavaScript)로 확장하려면 더 풍부한 도구 사양이 필요할 수 있다.
- Latency Model Generalization: 몬테카를로 비용 추정은 이전 실행 데이터에 의존하므로, 콜드 스타트 상황에서는 예측이 부정확할 수 있다.
- Complex Reasoning: 가격 협상처럼 깊은 다회전 추론이 필요한 작업은 여전히 반복적인 LLM 피드백 루프가 유리할 수 있는데, 현재 JIT 파이프라인은 이를 자연스럽게 지원하지 않는다.
- Future Directions: 저자들은 지연 분포에 대한 적응형 학습 통합, UI 기본 요소를 포괄하는 도구 프로토콜 확대, 컴파일 신뢰도가 낮을 때 순차 플래닝으로 되돌아가는 하이브리드 파이프라인 탐색 등을 제안한다.
Authors
- Caleb Winston
- Ron Yifeng Wang
- Azalia Mirhoseini
- Christos Kozyrakis
Paper Information
- arXiv ID: 2605.21470v1
- Categories: cs.LG, cs.AI
- Published: May 20, 2026
- PDF: Download PDF