[Paper] ClawBench: AI 에이전트가 일상적인 온라인 작업을 수행할 수 있을까?
Source: arXiv - 2604.08523v1
번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 한국어로 번역해 드리겠습니다.
개요
이 논문은 ClawBench라는 새로운 벤치마크를 소개한다. 이 벤치마크는 AI 에이전트에게 144개의 실시간 웹사이트에서 153개의 일상적인 온라인 작업 — 예를 들어 제품 구매, 의사 예약, 혹은 구직 신청 제출 — 을 수행하도록 요구한다. 정적 샌드박스가 아닌 실제 동적 웹 페이지에서 에이전트를 평가함으로써, 저자들은 현재 AI 능력과 개발자가 실제로 필요로 하는 범용 디지털 어시스턴트 사이의 격차를 드러낸다.
주요 기여
- 실제 환경 작업 모음: 15개 카테고리(전자상거래, 여행, 인사, 금융 등)를 아우르는 153개의 신중히 선정된 고빈도 온라인 작업.
- 실시간 웹 평가 플랫폼: 에이전트가 실제 서비스 사이트와 상호작용하며, 가벼운 가로채기 레이어가 최종 제출 요청만 차단해 의도치 않은 부작용을 방지하면서도 진짜 페이지 동작을 유지합니다.
- 포괄적인 역량 체크리스트: 작업은 사용자 제공 문서에서 정보 추출, 다단계 탐색, 정확한 양식 입력을 요구하며, 이는 기존 웹 자동화 벤치마크 대부분에 부족한 역량입니다.
- 실증적 베이스라인: Claude Sonnet 4.6, GPT‑4‑Turbo 및 주요 오픈소스 에이전트를 포함한 7개의 최신 모델을 평가한 결과, 최대 성공률이 **33.3 %**에 불과해 벤치마크의 난이도를 강조합니다.
- 오픈소스 벤치마크 공개: 모든 작업 정의, 평가 스크립트 및 가로채기 레이어가 공개되어 재현성과 커뮤니티 확장이 가능합니다.
방법론
- Task Curation – 저자들은 사용자 설문조사와 지원 티켓에서 보고된 일반적인 온라인 활동을 조사한 후, 이를 객관적으로 점수 매길 수 있는 원자적 작업으로 정제했습니다 (예: “특정 항목을 장바구니에 추가하고 결제 진행”).
- Platform Selection – 144개의 실시간 웹사이트를 선택하여 UI 디자인, 인증 흐름, 동적 콘텐츠(예: 무한 스크롤, AJAX 업데이트)의 다양성을 포괄했습니다.
- Agent Interface – 각 AI 에이전트는 목표, 사용자 제공 문서(예: 이력서, 신분증) 등을 설명하는 JSON‑formatted prompt와 허용된 브라우저 동작 집합(클릭, 입력, 스크롤 등)을 받습니다.
- Interception Layer – 가벼운 프록시가 브라우저와 대상 사이트 사이에 위치하여 거래를 제출할 최종 HTTP 요청을 캡처합니다. 요청은 기록된 후 폐기되어 실제 구매, 예약 또는 데이터 제출이 발생하지 않도록 합니다.
- Scoring – 가로채진 요청이 예상 페이로드(올바른 폼 필드, 값, 엔드포인트)와 일치하면 작업은 successful(성공)으로 표시됩니다. 중간 단계(예: 올바른 페이지로 이동) 달성 시 부분 점수가 부여됩니다.
- Baseline Runs – 동일한 작업 설명과 동일한 동작 집합을 사용해 7개의 주요 모델에 프롬프트를 제공했으며, 결과는 여러 랜덤 시드에 걸쳐 집계되어 확률적 변동성을 완화했습니다.
결과 및 발견
| 모델 (상위 5) | 성공률 |
|---|---|
| Claude Sonnet 4.6 | 33.3 % |
| GPT‑4‑Turbo | 28.1 % |
| Gemini 1.5‑Pro | 24.7 % |
| LLaMA‑2‑Chat‑70B (open‑source) | 12.5 % |
| Vicuna‑13B | 9.8 % |
- 작업 난이도가 고르지 않음: 간단한 “검색‑클릭” 작업은 >70 % 성공률을 보이지만, 다중 양식 신청(예: 구직 신청)은 15 % 이하로 떨어집니다.
- 문서 처리가 병목: 모델이 사용자가 제공한 PDF나 이미지를 웹 양식에 올바르게 파싱하고 삽입하는 데 어려움을 겪습니다.
- 동적 UI 요소가 실패를 유발: AJAX 로드 필드, 캡차, 모달 대화창이 에이전트의 탐색 로직을 자주 깨뜨립니다.
- 오픈소스 모델이 상용 모델에 뒤처지지만, 명령어 튜닝이 개선되면서 격차가 좁혀지고 있습니다.
Practical Implications
- Developer tooling – 이 벤치마크는 AI 기반 웹 자동화 라이브러리(예: Selenium‑plus‑LLM, Playwright 에이전트)용 회귀 테스트 스위트로 활용될 수 있습니다.
- Enterprise assistants – 내부 워크플로(경비 보고, 인사 온보딩 등)에 AI 에이전트를 도입하려는 기업은 이제 실질적인 준비도 측정 기준을 갖게 됩니다.
- Safety‑first automation – 가로채기 레이어는 실서비스에서 에이전트를 테스트하면서 실수로 구매하거나 데이터가 유출되는 위험을 방지하는 실용적인 패턴을 보여줍니다.
- Product roadmap – 낮은 성공률은 현재 LLM 기반 에이전트가 구조화된 데이터 추출과의 긴밀한 통합, 견고한 오류 복구 루프, 그리고 (LLM + 규칙 기반 UI 파서)와 같은 하이브리드 접근 방식을 필요로 함을 시사합니다.
제한 사항 및 향후 작업
- 작업 범위 – 153개의 작업이 많은 일상 시나리오를 포괄하지만, 규제 강도가 높은 분야(예: 은행 이체)와 같이 준수 요구사항이 다른 영역은 여전히 제외됩니다.
- 단일 샷 프롬프트 – 본 연구는 일관된 프롬프트 방식을 사용했으며, 보다 풍부한 다중 턴 대화나 도구 사용 API(예: 함수 호출) 등이 성능을 향상시킬 수 있지만 탐색되지 않았습니다.
- 평가 세분성 – 성공 여부는 최종 요청 페이로드를 기준으로 이진 판단되며, 사용자 경험의 세부 지표(속도, 재시도 횟수 등)는 향후 벤치마크에 남겨둡니다.
- 동적 방어 – 웹사이트가 자동화 에이전트를 차단하기 위해(CAPTCHA, 속도 제한 등) 적응할 수 있으므로, ClawBench의 향후 버전은 이러한 방어와 함께 진화해야 합니다.
핵심 요약: ClawBench는 현재 LLM 에이전트와 개발자가 기대하는 신뢰할 수 있는 범용 디지털 어시스턴트 사이의 실제 격차를 조명합니다. 이는 구체적이고 프로덕션 수준의 테스트베드를 제공하여 차세대 연구와 도구가 실제로 활용 가능한 AI 기반 웹 자동화로 나아가도록 촉진합니다.
저자
- Yuxuan Zhang
- Yubo Wang
- Yipeng Zhu
- Penghui Du
- Junwen Miao
- Xuan Lu
- Wendong Xu
- Yunzhuo Hao
- Songcheng Cai
- Xiaochen Wang
- Huaisong Zhang
- Xian Wu
- Yi Lu
- Minyi Lei
- Kai Zou
- Huifeng Yin
- Ping Nie
- Liang Chen
- Dongfu Jiang
- Wenhu Chen
- Kelsey R. Allen
논문 정보
- arXiv ID: 2604.08523v1
- Categories: cs.CL, cs.AI
- Published: 2026년 4월 9일
- PDF: Download PDF