[Paper] 웹 에이전트에서 구별되는 인간 상호작용 모델링

발행: 3일 전 (2026년 2월 20일 오전 03:11 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.17588v1

Overview

이 논문은 놀라울 정도로 실용적인 문제에 접근한다: 웹 자동화 에이전트가 언제 인간에게 도움을 요청해야 하고, 언제 스스로 진행해야 하는가? 실제 웹 탐색 세션을 분석함으로써, 저자들은 사용자가 에이전트와 네 가지 뚜렷한 방식으로 상호작용한다는 것과 언어‑모델‑기반 예측기가 이러한 패턴을 학습할 수 있음을 보여준다. 그 결과는 보다 협업적인 “human‑in‑the‑loop” 에이전트이며, 실시간 배포에서 눈에 띄게 더 유용하게 느껴진다.

주요 기여

CowCorpus – 400개의 실제 사용자 웹 탐색 세션(≈4,200개의 인간 ↔ 에이전트 행동이 교차)으로 구성된 새로운 공개 데이터셋.
상호작용 분류 체계 – 네 가지 반복되는 사용자‑에이전트 상호작용 스타일을 식별:
1. 핸즈‑오프 감독 (에이전트가 자율적으로 실행하고 사용자는 관찰)
2. 핸즈‑온 감시 (사용자가 개입하여 수정하거나 확인)
3. 협업 작업 해결 (사용자와 에이전트가 작업 부담을 공유)
4. 전면 사용자 인계 (에이전트가 완전히 물러남).
개입 예측기 – 기본 언어 모델보다 61–63 % 높은 정확도로 다음 사용자 개입을 예측하는 파인‑튜닝된 언어 모델.
실시간 사용자 연구 – 예측기를 웹 탐색 어시스턴트에 통합했을 때 사용자 평점 기준 **26.5 %**의 유용성 향상을 달성, “개입‑인식” 행동의 실용적 가치를 확인.

방법론

Data collection – 참가자들은 현실적인 웹 작업(예: 여행 예약, 쇼핑)을 수행하면서 반자동 에이전트가 행동을 제안했습니다. 모든 클릭, 양식 입력, 탐색 단계가 기록되어 인간과 에이전트 행동이 교대로 나타나는 시퀀스를 생성했습니다.
Pattern discovery – 저자들은 로그를 수동으로 검토하고 상호작용 시퀀스를 클러스터링하여 네 가지 스타일의 분류 체계를 도출했습니다.
Model training – 그들은 기존 언어 모델(e.g., T5, GPT‑2)을 사용하여 CowCorpus에 미세 조정하고, 최근 행동 이력과 식별된 상호작용 스타일을 조건으로 다음 단계에 대한 이진 “intervention”(중재) 라벨을 예측하도록 학습했습니다.
Evaluation –
- Offline: 표준 분류 지표(정확도, F1)를 비적응 언어 모델과 비교했습니다.
- Online: 예측기를 실시간 웹 에이전트에 연결했으며, 30명 이상의 참가자가 작업을 수행하면서 에이전트의 유용성, 반응성, 신뢰성을 평가했습니다.

Results & Findings

Metric	Baseline LM	Intervention‑aware LM
Accuracy (intervention prediction)	~45 %	61.4 % – 63.4 %
F1 score	0.48	0.66
User‑rated usefulness (5‑point Likert)	3.2	4.0 (↑ 26.5 %)
Average number of unnecessary confirmations	7.8	4.2 (↓ 46 %)

예측 모델은 불필요한 프롬프트를 줄였을 뿐만 아니라, 사용자가 수동으로 개입해야 할 중요한 순간을 포착하여 작업 흐름을 보다 원활하게 만들고 신뢰도를 높였습니다.

Practical Implications

Smarter assistants – 브라우저 확장 프로그램, RPA 봇, 혹은 AI‑기반 헬프 데스크를 구축하는 개발자는 “intervention model”(개입 모델)을 통합하여 언제 명확성을 요청하고 언제 자율적으로 진행할지 결정할 수 있습니다.
Reduced cognitive load – 불필요한 확인을 피함으로써 에이전트는 사용자가 고부가가치 의사결정에 집중하도록 하며, 이는 생산성 도구와 기업 워크플로우에 큰 이점이 됩니다.
Personalized interaction styles – 이 분류 체계는 에이전트가 사용자의 선호 협업 방식에 맞게 적응하도록 합니다(예: 파워 유저는 손을 떼는 감독을 선호할 수 있고, 초보자는 더 많은 직접적인 감독이 필요할 수 있습니다).
Data‑driven UX design – CowCorpus는 새로운 프롬프트 전략을 테스트하기 위한 벤치마크를 제공하여, 혼합 주도 시스템의 UI/UX를 보다 쉽게 반복 개선할 수 있게 합니다.

제한 사항 및 향후 연구

도메인 범위 – 이 연구는 일반 웹 탐색에 초점을 맞추고 있으며, 의료 포털, 금융 대시보드와 같은 특수 도메인은 다른 개입 패턴을 보일 수 있습니다.
모델 세분성 – 예측기는 “개입 여부” 수준에서 작동하지만, 어떻게 개입할지 (예: 어떤 UI 요소를 강조할지) 아직 제안하지 않습니다.
데이터 수집 확장성 – 고품질의 인간‑에이전트 교차 로그를 수집하는 데 많은 인력이 필요합니다; 보다 넓은 크라우드소싱 파이프라인을 통해 데이터셋을 확장할 수 있습니다.
장기 적응 – 향후 연구에서는 지속 학습을 탐구하여 에이전트가 개별 사용자가 몇 주 또는 몇 달에 걸쳐 상호작용 방식을 발전시킴에 따라 개입 예측을 정교화하도록 할 수 있습니다.

핵심 요점: 인간의 방해를 번거로운 것이 아니라 일급 신호로 다룸으로써, 이 연구는 웹 에이전트가 진정한 협업 파트너가 될 수 있음을 보여줍니다—이는 차세대 자동화 도구 개발자들이 오늘부터 제품에 적용하기 시작해야 할 사항입니다.

저자

Faria Huq
Zora Zhiruo Wang
Zhanqiu Guo
Venu Arvind Arangarajan
Tianyue Ou
Frank Xu
Shuyan Zhou
Graham Neubig
Jeffrey P. Bigham

논문 정보

arXiv ID: 2602.17588v1
카테고리: cs.CL, cs.HC
출판일: 2026년 2월 19일
PDF: PDF 다운로드

[Paper] 웹 에이전트에서 구별되는 인간 상호작용 모델링

Overview

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[Paper] 이 언어는 무엇인가요? Ask Your Tokenizer

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] 페르시아어 언어 모델에서 사실‑개념 격차를 밝히다