[Paper] AI 에이전트의 채택 및 사용: Perplexity에서의 초기 증거

발행: (2025년 12월 9일 오전 03:56 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.07828v1

Overview

이 논문은 웹 브라우저에 내장된 범용 AI 에이전트를 사람들이 어떻게 채택하고 사용하는지에 대한 최초의 대규모 실제 연구를 제시한다. Comet, Perplexity의 AI 기반 브라우저와 그 내장 “Comet Assistant”와의 수억 건에 달하는 익명화된 상호작용을 분석함으로써, 누가 이 에이전트를 사용하고, 얼마나 집중적으로 사용하며, 어떤 작업에 적용되는지를 밝혀낸다. 이러한 발견은 개발자, 제품팀, 정책 입안자에게 AI 에이전트 소비의 초기 패턴에 대한 통찰을 제공한다.

Key Contributions

  • 실증 현장 연구: 웹 규모(수억 건의 쿼리)에서 AI 에이전트 채택을 조사.
  • 사용자 세그먼트 분석: 채택 강도와 인구통계(1인당 GDP, 교육 수준) 및 직업 분야(기술, 학계, 금융, 마케팅, 기업가정신)를 연결.
  • 계층적 분류 체계(주제 → 하위주제 → 작업)로 90개의 서로 다른 에이전트 작업을 체계적으로 분류하고, 소수의 작업이 사용량을 지배한다는 점을 드러냄.
  • 시간적 동태: 초기 사용 사례의 “끈끈함”과 시간이 지남에 따라 인지적으로 더 복잡한 주제로 점진적 전환을 보여줌.
  • 오픈 월드 사용 인사이트: 개인, 전문, 교육 맥락을 구분(55 % 개인, 30 % 전문, 16 % 교육).

Methodology

  1. 데이터 수집 – 저자들은 Comet 백엔드에서 익명화된 로그에 접근했으며, 이는 수억 건에 달하는 사용자‑에이전트 상호작용을 몇 개월에 걸쳐 포함한다.
  2. 사용자 세분화 – 사용자를 지리적 지역, 1인당 GDP, 교육 수준, 산업(추론된 직업 신호 기반)으로 그룹화.
  3. 쿼리 파싱 및 라벨링 – 각 상호작용을 자연어 의도로 파싱하고, 규칙 기반 휴리스틱과 미세조정된 언어 모델을 결합해 3단계 분류 체계(주제 → 하위주제 → 작업)에 자동 매핑.
  4. 통계 분석 – 채택률, 사용 강도(사용자당 쿼리 수), 작업 분포를 측정하고, 행동 변화 양상을 포착하기 위해 장기 추세를 검토.
  5. 검증 – 라벨링된 쿼리 중 5 % 샘플을 수동 검토해 분류 정확도(> 90 % 일치)를 확인.

이 파이프라인은 대규모 상호작용 로그에 접근할 수 있는 다른 팀도 재현 가능하도록 설계되었으며, 고급 계량경제학이나 복잡한 NLP 전문 지식이 필요하지 않다.

Results & Findings

DimensionKey Finding
Adoption초기 채택자는 고GDP·고교육 국가에 집중; 디지털·지식 집약 산업 종사자는 기준선보다 2–3배 높은 채택률을 보인다.
Usage intensity파워 유저(상위 5 % 사용자)가 전체 쿼리의 > 30 %를 생성하며, 일 평균 45개의 쿼리를 수행한다.
Top topics생산성·워크플로학습·연구가 전체 쿼리의 **57 %**를 차지한다.
Dominant subtopics코스(온라인 학습)와 상품 쇼핑이 각각 ~**11 %**의 쿼리를 차지해 합계 **22 %**를 만든다.
Task concentration90개의 작업으로 구성된 분류 체계에도 불구하고 10가지 가장 흔한 작업(예: “기사 요약”, “상품 비교”, “코드 스니펫 생성”)이 전체 쿼리의 **55 %**를 차지한다.
Context split개인 사용이 55 %로 가장 많으며, 그 다음이 전문(30 %) 및 교육(16 %)이다.
Temporal shift몇 주에 걸쳐 사용자는 단순 검색(예: “상품 검색”)에서 고차원 추론 작업(예: “연구 제안서 초안 작성”)으로 이동한다.
Stickiness첫 주에 에이전트와 상호작용한 사용자는 한 달 후에도 활동을 유지할 확률이 1.8배 높다.

Practical Implications

  • 제품 로드맵 – AI 어시스턴트 기능을 개발하는 팀은 생산성 관련 워크플로(작업 자동화, 요약, 코드 생성)와 학습 도구(코스 지원, 연구 보조)를 우선 순위에 두어야 한다. 이는 실제 사용량을 크게 차지한다.
  • 사용자 온보딩 – 초기 채택자 인구통계가 기술 허브, 대학, 금융 기업 등에 집중돼 있으므로, 맞춤형 온보딩(예: 고부가가치 전문 사용 사례 시연)으로 확산을 가속화할 수 있다.
  • 수익 모델 – 소수 작업이 대부분의 상호작용을 차지하므로, 계층형 가격 정책(기본 쿼리는 무료, 고급 추론·배치 처리는 프리미엄)으로 가치를 포착하면서 일반 사용자를 배제하지 않을 수 있다.
  • API 설계계층적 분류 체계(주제 → 하위주제 → 작업)를 API에 노출하면 개발자가 산업별 플러그인 등 컨텍스트 인식 확장을 쉽게 구현할 수 있다.
  • 프라이버시·컴플라이언스 – 익명화 로그에 의존한 연구는 프라이버시 보호 텔레메트리가 대규모 에이전트 사용 측정에 필수임을 강조한다.
  • 교육·훈련 – 교육 기관은 AI 에이전트를 자기 주도 학습연구 지원에 활용할 수 있지만, AI 생성 콘텐츠에 대한 비판적 평가 능력을 교육 과정에 포함시켜야 한다.

Limitations & Future Work

  • 플랫폼 특수성 – 모든 데이터가 단일 AI 기반 브라우저(Comet)에서 수집됐으므로, 모바일 전용 또는 네이티브 앱 에이전트에서는 사용 패턴이 다를 수 있다.
  • 자기 선택 편향 – AI 어시스턴트를 설치한 사용자는 이미 기술에 익숙한 경우가 많아, 일반 인구 대비 채택률이 과대 평가될 가능성이 있다.
  • 분류 체계 세분성 – 90개의 작업을 포괄하는 3단계 분류 체계가 유용하지만, 멀티모달 추론 등 새로운 기능은 추가 카테고리를 필요로 할 수 있다.
  • 장기 행동 – 연구 기간이 비교적 짧아 다년 채택 곡선에이전트 기능 업그레이드의 영향을 추적하는 향후 연구가 필요하다.
  • 인과적 영향 – 사용자 인구통계와 채택 간의 상관관계는 확인했지만, 가격 정책·마케팅 등 인과 메커니즘은 아직 탐구되지 않았다.

저자들은 보다 넓은 플랫폼 간 연구, 깊이 있는 인과 분석, 그리고 정책 입안자와의 협업을 통해 점점 더 강력해지는 AI 에이전트의 책임 있는 확산을 모색할 것을 촉구한다.

Authors

  • Jeremy Yang
  • Noah Yonack
  • Kate Zyskowski
  • Denis Yarats
  • Johnny Ho
  • Jerry Ma

Paper Information

  • arXiv ID: 2512.07828v1
  • Categories: cs.LG, econ.GN
  • Published: December 8, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »