왜 브라우저 에이전트는 토큰의 99%를 낭비할까 (그리고 해결 방법)
Source: Dev.to
Problem Overview
모든 브라우저 에이전트는 숨겨진 세금, 토큰을 지불합니다.
에이전트가 웹페이지를 방문하면 DOM을 LLM에 전달합니다. LLM은 수천 개의 요소를 읽고, 클릭할 버튼을 결정하고, 툴 호출을 생성한 뒤, 이를 반복합니다.
10‑단계 워크플로우의 경우 25개 이상의 LLM 라운드 트립이 발생합니다. 각 단계마다 대화 기록이 누적되면서 컨텍스트가 커집니다. 10단계가 되면 액션당 약 175 000 토큰을 전송하게 됩니다.
최신 모델 가격을 적용하면 이는 단일 워크플로우 실행당 약 $4에 해당합니다. 하루에 1 000번 실행하면 일일 $4 000이 소모됩니다—버튼 클릭만을 위해서요.
Why the Cost Explodes
아키텍처가 매 단계마다 LLM이 처음부터 추론하도록 강요합니다:
- DOM 검사 (≈ 4 000 토큰) → 추론 → 행동
- …
- 전체 대화 기록이 그대로 전달돼 각 액션이 이전보다 더 비싸집니다.
핵심 문제는 반복적인 브라우저 작업에 범용 추론을 사용하는 것입니다.
A Different Approach: Collective Intelligence
첫 번째 에이전트가 Amazon에서 검색하는 방법을 배우면 그 지식을 모든 다른 에이전트와 공유한다면 어떨까요?
- Amazon 검색 상자의 CSS 셀렉터는 거의 변하지 않습니다.
- Google 검색 버튼, GitHub 로그인 폼 등은 매일 수백만 번 재해결되는 해결된 문제입니다.
집합 지능은 한 에이전트가 셀렉터와 절차를 발견하고, 이후 에이전트들은 단일 API 호출만으로 그 지식을 재사용한다는 뜻입니다—DOM 검사도, LLM 추론도 없이 토큰 0으로 처리됩니다.
Impact
10‑단계 워크플로우가 $4와 50 초에서 $0.0006와 178 ms로 감소합니다.
The Browse → Execute → Report Pattern
- Browse – 도메인에서 가능한 작업을 물어봅니다. 신뢰 점수와 사전 검증된 셀렉터가 포함된 기능 목록을 받습니다.
- Execute – 특정 기능에 대한 최적 실행 경로를 요청합니다. CSS 셀렉터, API 빠른 경로, 혹은 매크로 단계를 반환받습니다.
- Report – 실행 후 무엇이 작동했는지 보고합니다. 성공적인 패턴은 모든 다른 에이전트를 위한 검증된 매크로가 되어 시스템을 지속적으로 개선합니다.
각 보고는 시스템을 더 똑똑하게 만들며, 에이전트는 지능을 소비하고 생산합니다.
Cost Comparison
| Approach | Cost per 10‑action workflow |
|---|---|
| Traditional (LLM reasoning) | ≈ $4 (≈ 25 LLM calls) |
| Collective (pre‑verified macros) | ≈ $0.0006 (1 API call) |
단계가 많아질수록 격차는 커집니다. 50‑단계 전통 워크플로우는 $20을 초과할 수 있지만, 집합 접근법은 $0.0006에 머무릅니다.
When to Use Collective Intelligence
- 이커머스 봇
- 데이터 추출 파이프라인
- 테스트 자동화
- 폼 자동 입력 서비스
에이전트가 동일한 브라우저 작업을 반복 수행하는 모든 시나리오에 이 패턴이 유리합니다.
- 사이트를 한 번 방문하고 다시는 안 갈 경우, LLM 추론이 적합합니다.
- 매일 같은 사이트를 방문한다면, 반복되는 토큰 세금이 빠르게 누적됩니다.
Implementation: AIR SDK
AIR SDK는 browse→execute→report 패턴을 MCP 서버 형태로 구현합니다. 설치 후 에이전트를 서버에 연결하면 DOM 추론이 자동으로 대체됩니다.
npm install @arcede/air-sdk
GitHub:
Call to Action
브라우저 에이전트를 구축하고 계신가요? 액션당 비용은 어느 정도인가요? 토큰 경제를 어떻게 다루고 있는지 공유해 주세요.