왜 브라우저 에이전트는 토큰의 99%를 낭비할까 (그리고 해결 방법)

발행: 1개월 전 (2026년 3월 28일 오후 06:26 GMT+9)

6 분 소요

원문: Dev.to

Source: Dev.to

Problem Overview

모든 브라우저 에이전트는 숨겨진 세금, 토큰을 지불합니다.
에이전트가 웹페이지를 방문하면 DOM을 LLM에 전달합니다. LLM은 수천 개의 요소를 읽고, 클릭할 버튼을 결정하고, 툴 호출을 생성한 뒤, 이를 반복합니다.

10‑단계 워크플로우의 경우 25개 이상의 LLM 라운드 트립이 발생합니다. 각 단계마다 대화 기록이 누적되면서 컨텍스트가 커집니다. 10단계가 되면 액션당 약 175 000 토큰을 전송하게 됩니다.

최신 모델 가격을 적용하면 이는 단일 워크플로우 실행당 약 $4에 해당합니다. 하루에 1 000번 실행하면 일일 $4 000이 소모됩니다—버튼 클릭만을 위해서요.

아키텍처가 매 단계마다 LLM이 처음부터 추론하도록 강요합니다:

핵심 문제는 반복적인 브라우저 작업에 범용 추론을 사용하는 것입니다.

첫 번째 에이전트가 Amazon에서 검색하는 방법을 배우면 그 지식을 모든 다른 에이전트와 공유한다면 어떨까요?

집합 지능은 한 에이전트가 셀렉터와 절차를 발견하고, 이후 에이전트들은 단일 API 호출만으로 그 지식을 재사용한다는 뜻입니다—DOM 검사도, LLM 추론도 없이 토큰 0으로 처리됩니다.

10‑단계 워크플로우가 $4와 50 초에서 $0.0006와 178 ms로 감소합니다.

Browse – 도메인에서 가능한 작업을 물어봅니다. 신뢰 점수와 사전 검증된 셀렉터가 포함된 기능 목록을 받습니다.
Execute – 특정 기능에 대한 최적 실행 경로를 요청합니다. CSS 셀렉터, API 빠른 경로, 혹은 매크로 단계를 반환받습니다.
Report – 실행 후 무엇이 작동했는지 보고합니다. 성공적인 패턴은 모든 다른 에이전트를 위한 검증된 매크로가 되어 시스템을 지속적으로 개선합니다.

각 보고는 시스템을 더 똑똑하게 만들며, 에이전트는 지능을 소비하고 생산합니다.

Approach	Cost per 10‑action workflow
Traditional (LLM reasoning)	≈ $4 (≈ 25 LLM calls)
Collective (pre‑verified macros)	≈ $0.0006 (1 API call)

단계가 많아질수록 격차는 커집니다. 50‑단계 전통 워크플로우는 $20을 초과할 수 있지만, 집합 접근법은 $0.0006에 머무릅니다.

에이전트가 동일한 브라우저 작업을 반복 수행하는 모든 시나리오에 이 패턴이 유리합니다.

AIR SDK는 browse→execute→report 패턴을 MCP 서버 형태로 구현합니다. 설치 후 에이전트를 서버에 연결하면 DOM 추론이 자동으로 대체됩니다.

npm install @arcede/air-sdk

GitHub:

브라우저 에이전트를 구축하고 계신가요? 액션당 비용은 어느 정도인가요? 토큰 경제를 어떻게 다루고 있는지 공유해 주세요.