[Paper] Amazon Appstore의 낮은 평점 애플리케이션 데이터셋을 이용한 사용자 피드백 분석

발행: (2026년 1월 6일 오후 10:32 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.03009v1

번역할 텍스트를 제공해 주시겠어요? 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

개요

저자들은 Amazon Appstore에서 low‑rated Android apps에 초점을 맞춘 새로운 공개 데이터셋을 소개합니다. 약 ≈ 80 k 사용자 리뷰를 수집하고 그 중 6 k를 수동으로 여섯 가지 구체적인 이슈 카테고리로 라벨링함으로써, 이 작업은 앱 피드백의 “부정적인” 측면에 조명을 비춥니다—종종 무시되지만 버그 수정, UX 개선, 평점 상승을 위한 단서가 풍부한 정보입니다.

주요 기여

  • Android 앱을 위한 최초의 대규모 저평가 데이터셋 (64개 앱, 79 821개의 리뷰).
  • 6 000개의 리뷰를 6가지 명확히 정의된 이슈 유형: UI/UX, 기능, 호환성, 성능/안정성, 지원, 보안/프라이버시 로 수동 라벨링.
  • 원시 데이터와 라벨링된 데이터 모두를 오픈소스로 공개, 재현성 및 후속 연구 지원.
  • 이슈 빈도 및 분포에 대한 기본 분석, 향후 연구를 위한 기준점 설정.
  • 자동 피드백 분류 프레임워크, 대규모로 부정적인 리뷰를 triage 할 수 있는 머신러닝 모델 개발의 기반 제공.

Methodology

  1. 앱 선택 – 평균 평점 ≤ 2.5 별인 앱을 찾기 위해 Amazon Software Appstore를 조회했으며, 그 결과 게임, 유틸리티 등 다양한 카테고리에서 64개의 개별 애플리케이션을 확보했습니다.
  2. 리뷰 수집 – 스토어의 공개 API를 통해 이용 가능한 모든 사용자 리뷰를 스크랩하여 총 79 821개의 텍스트 항목을 수집했습니다.
  3. 이슈 분류 체계 설계 – 기존 연구를 기반으로 낮은 평점을 받은 앱에서 가장 흔히 나타나는 문제점을 포괄하는 여섯 가지 고수준 이슈 카테고리를 정의했습니다.
  4. 수동 주석 달기 – 6,000개의 리뷰를 도메인 전문가가 독립적으로 라벨링했으며, 주석자 간 일치도(Cohen’s κ ≈ 0.78)를 측정해 신뢰할 수 있는 정답 데이터를 확보했습니다.
  5. 데이터셋 패키징 – 원시 JSON 덤프와 주석이 달린 하위 집합(리뷰 텍스트, 앱 ID, 평점, 이슈 라벨)을 포함한 CSV 파일을 관용 라이선스 하에 공개했습니다.

결과 및 발견

  • 이슈 분포: 성능/안정성(≈ 28 %)과 UI/UX(≈ 24 %)가 가장 많이 나타났으며, 그 다음으로 기능성(≈ 18 %)이 뒤를 이었습니다. 보안/프라이버시 및 지원 이슈는 드물지만 존재했습니다.
  • 리뷰 길이 및 감성: 낮은 평점을 받은 리뷰는 짧고 감정이 강하게 표현되는 경향이 있었으며(풍자와 부정적 감성의 발생률이 높음), 이는 이전 연구에서 보고된 높은 평점 리뷰와 비교됩니다.
  • 앱 간 패턴: 특정 기기 모델에서 발생하는 충돌과 같은 일부 이슈 유형이 여러 앱에 걸쳐 반복되어, 아마존 생태계 내 시스템 호환성 문제를 시사합니다.
  • 기본 분류: 간단한 TF‑IDF + 로지스틱 회귀 모델이 6 k 주석 데이터셋에서 약 71 % 정확도를 달성했으며, 이는 분류 체계가 학습 가능하고 데이터셋이 보다 정교한 딥러닝 접근법의 벤치마크로 활용될 수 있음을 확인합니다.

Practical Implications

  • Automated triage pipelines – 개발자는 훈련된 분류기를 CI/CD 또는 릴리스‑모니터링 도구에 통합하여 들어오는 부정적인 리뷰를 표시하고 적절한 엔지니어링 팀(UI, 백엔드, 보안 등)으로 라우팅할 수 있다.
  • Prioritization of bug fixes – 성능 관련 불만과 UI 불만의 비율을 정량화함으로써, 제품 매니저는 평점 회복에 가장 큰 영향을 미칠 수 있는 영역에 자원을 배분할 수 있다.
  • Competitive intelligence – 벤더는 자체 저평가 앱을 데이터셋과 벤치마크하여 공통적인 실패 유형을 파악하고, 앱 간 보완 전략을 수립할 수 있다.
  • Enhanced app‑store moderation – 스토어 운영자(Amazon, Google Play)는 데이터셋을 활용해 악성 언어, 풍자, 개인정보 관련 주장 등을 감지하는 모더레이션 봇을 훈련시켜 사용자 신뢰를 향상시킬 수 있다.
  • Research acceleration – 이 공개 데이터셋은 감성 분석, 풍자 감지, 그리고 특히 “부정 피드백” 분야를 목표로 하는 소프트웨어 진화 연구에 대한 진입 장벽을 낮춘다.

제한 사항 및 향후 연구

  • 플랫폼 범위 – Amazon Appstore에만 제한; Google Play의 Android 앱은 다른 리뷰 패턴을 보일 수 있습니다.
  • 시간적 편향 – 리뷰가 한 시점에 수집됨; 앱 업데이트로 인해 문제 분포가 변할 수 있으므로 종단 연구가 필요합니다.
  • 주석 세분성 – 6개의 거친 카테고리가 주요 주제를 포착하지만 세부적인 뉘앙스(예: 네트워크 지연 vs. 배터리 소모)를 놓칠 수 있습니다. 향후 연구에서는 분류 체계를 확장하거나 계층적 라벨링을 도입할 수 있습니다.
  • 모델 베이스라인 – 단순 분류기만 평가했으며, 트랜스포머 기반 모델, 다중 모달 입력(평점, 타임스탬프) 및 전이 학습을 탐색하면 분류 성능을 향상시킬 수 있습니다.

저자

  • Nek Dil Khan
  • Javed Ali Khan
  • Darvesh Khan
  • Jianqiang Li
  • Mumrez Khan
  • Shah Fahad Khan

논문 정보

  • arXiv ID: 2601.03009v1
  • 카테고리: cs.SE
  • 출판일: 2026년 1월 6일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »