[Paper] ClawBench: AI 에이전트가 일상적인 온라인 작업을 수행할 수 있을까?

발행: 3주 전 (2026년 4월 10일 오전 02:57 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.08523v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 한국어로 번역해 드리겠습니다.

개요

이 논문은 ClawBench라는 새로운 벤치마크를 소개한다. 이 벤치마크는 AI 에이전트에게 144개의 실시간 웹사이트에서 153개의 일상적인 온라인 작업 — 예를 들어 제품 구매, 의사 예약, 혹은 구직 신청 제출 — 을 수행하도록 요구한다. 정적 샌드박스가 아닌 실제 동적 웹 페이지에서 에이전트를 평가함으로써, 저자들은 현재 AI 능력과 개발자가 실제로 필요로 하는 범용 디지털 어시스턴트 사이의 격차를 드러낸다.

주요 기여

실제 환경 작업 모음: 15개 카테고리(전자상거래, 여행, 인사, 금융 등)를 아우르는 153개의 신중히 선정된 고빈도 온라인 작업.
실시간 웹 평가 플랫폼: 에이전트가 실제 서비스 사이트와 상호작용하며, 가벼운 가로채기 레이어가 최종 제출 요청만 차단해 의도치 않은 부작용을 방지하면서도 진짜 페이지 동작을 유지합니다.
포괄적인 역량 체크리스트: 작업은 사용자 제공 문서에서 정보 추출, 다단계 탐색, 정확한 양식 입력을 요구하며, 이는 기존 웹 자동화 벤치마크 대부분에 부족한 역량입니다.
실증적 베이스라인: Claude Sonnet 4.6, GPT‑4‑Turbo 및 주요 오픈소스 에이전트를 포함한 7개의 최신 모델을 평가한 결과, 최대 성공률이 **33.3 %**에 불과해 벤치마크의 난이도를 강조합니다.
오픈소스 벤치마크 공개: 모든 작업 정의, 평가 스크립트 및 가로채기 레이어가 공개되어 재현성과 커뮤니티 확장이 가능합니다.

방법론

Task Curation – 저자들은 사용자 설문조사와 지원 티켓에서 보고된 일반적인 온라인 활동을 조사한 후, 이를 객관적으로 점수 매길 수 있는 원자적 작업으로 정제했습니다 (예: “특정 항목을 장바구니에 추가하고 결제 진행”).
Platform Selection – 144개의 실시간 웹사이트를 선택하여 UI 디자인, 인증 흐름, 동적 콘텐츠(예: 무한 스크롤, AJAX 업데이트)의 다양성을 포괄했습니다.
Agent Interface – 각 AI 에이전트는 목표, 사용자 제공 문서(예: 이력서, 신분증) 등을 설명하는 JSON‑formatted prompt와 허용된 브라우저 동작 집합(클릭, 입력, 스크롤 등)을 받습니다.
Interception Layer – 가벼운 프록시가 브라우저와 대상 사이트 사이에 위치하여 거래를 제출할 최종 HTTP 요청을 캡처합니다. 요청은 기록된 후 폐기되어 실제 구매, 예약 또는 데이터 제출이 발생하지 않도록 합니다.
Scoring – 가로채진 요청이 예상 페이로드(올바른 폼 필드, 값, 엔드포인트)와 일치하면 작업은 successful(성공)으로 표시됩니다. 중간 단계(예: 올바른 페이지로 이동) 달성 시 부분 점수가 부여됩니다.
Baseline Runs – 동일한 작업 설명과 동일한 동작 집합을 사용해 7개의 주요 모델에 프롬프트를 제공했으며, 결과는 여러 랜덤 시드에 걸쳐 집계되어 확률적 변동성을 완화했습니다.

결과 및 발견

모델 (상위 5)	성공률
Claude Sonnet 4.6	33.3 %
GPT‑4‑Turbo	28.1 %
Gemini 1.5‑Pro	24.7 %
LLaMA‑2‑Chat‑70B (open‑source)	12.5 %
Vicuna‑13B	9.8 %

작업 난이도가 고르지 않음: 간단한 “검색‑클릭” 작업은 >70 % 성공률을 보이지만, 다중 양식 신청(예: 구직 신청)은 15 % 이하로 떨어집니다.
문서 처리가 병목: 모델이 사용자가 제공한 PDF나 이미지를 웹 양식에 올바르게 파싱하고 삽입하는 데 어려움을 겪습니다.
동적 UI 요소가 실패를 유발: AJAX 로드 필드, 캡차, 모달 대화창이 에이전트의 탐색 로직을 자주 깨뜨립니다.
오픈소스 모델이 상용 모델에 뒤처지지만, 명령어 튜닝이 개선되면서 격차가 좁혀지고 있습니다.

Practical Implications

Developer tooling – 이 벤치마크는 AI 기반 웹 자동화 라이브러리(예: Selenium‑plus‑LLM, Playwright 에이전트)용 회귀 테스트 스위트로 활용될 수 있습니다.
Enterprise assistants – 내부 워크플로(경비 보고, 인사 온보딩 등)에 AI 에이전트를 도입하려는 기업은 이제 실질적인 준비도 측정 기준을 갖게 됩니다.
Safety‑first automation – 가로채기 레이어는 실서비스에서 에이전트를 테스트하면서 실수로 구매하거나 데이터가 유출되는 위험을 방지하는 실용적인 패턴을 보여줍니다.
Product roadmap – 낮은 성공률은 현재 LLM 기반 에이전트가 구조화된 데이터 추출과의 긴밀한 통합, 견고한 오류 복구 루프, 그리고 (LLM + 규칙 기반 UI 파서)와 같은 하이브리드 접근 방식을 필요로 함을 시사합니다.

제한 사항 및 향후 작업

작업 범위 – 153개의 작업이 많은 일상 시나리오를 포괄하지만, 규제 강도가 높은 분야(예: 은행 이체)와 같이 준수 요구사항이 다른 영역은 여전히 제외됩니다.
단일 샷 프롬프트 – 본 연구는 일관된 프롬프트 방식을 사용했으며, 보다 풍부한 다중 턴 대화나 도구 사용 API(예: 함수 호출) 등이 성능을 향상시킬 수 있지만 탐색되지 않았습니다.
평가 세분성 – 성공 여부는 최종 요청 페이로드를 기준으로 이진 판단되며, 사용자 경험의 세부 지표(속도, 재시도 횟수 등)는 향후 벤치마크에 남겨둡니다.
동적 방어 – 웹사이트가 자동화 에이전트를 차단하기 위해(CAPTCHA, 속도 제한 등) 적응할 수 있으므로, ClawBench의 향후 버전은 이러한 방어와 함께 진화해야 합니다.

핵심 요약: ClawBench는 현재 LLM 에이전트와 개발자가 기대하는 신뢰할 수 있는 범용 디지털 어시스턴트 사이의 실제 격차를 조명합니다. 이는 구체적이고 프로덕션 수준의 테스트베드를 제공하여 차세대 연구와 도구가 실제로 활용 가능한 AI 기반 웹 자동화로 나아가도록 촉진합니다.

저자

Yuxuan Zhang
Yubo Wang
Yipeng Zhu
Penghui Du
Junwen Miao
Xuan Lu
Wendong Xu
Yunzhuo Hao
Songcheng Cai
Xiaochen Wang
Huaisong Zhang
Xian Wu
Yi Lu
Minyi Lei
Kai Zou
Huifeng Yin
Ping Nie
Liang Chen
Dongfu Jiang
Wenhu Chen
Kelsey R. Allen

논문 정보

arXiv ID: 2604.08523v1
Categories: cs.CL, cs.AI
Published: 2026년 4월 9일
PDF: Download PDF

[Paper] ClawBench: AI 에이전트가 일상적인 온라인 작업을 수행할 수 있을까?

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] VisionFoundry: 합성 이미지를 이용한 VLMs의 시각 인식 교육

[Paper] VL-Calibration: 대형 비전-언어 모델 추론을 위한 분리된 신뢰도 보정

[Paper] 보지만 생각하지 않음: 멀티모달 Mixture-of-Experts에서 라우팅 방해

[Paper] AVGen-Bench: 작업 기반 벤치마크 for 텍스트-오디오-비디오 생성의 다중-Granular 평가