[Paper] 来自 Amazon Appstore 的低评分应用数据集用于用户反馈分析

发布: (2026年1月6日 GMT+8 21:32)
6 min read
原文: arXiv

Source: arXiv - 2601.03009v1

概览

作者们提供了一个全新的、公开可用的数据集,专注于来自 Amazon Appstore 的 低评分 Android 应用。通过收集约 80 千条用户评论,并手动标注其中的 6 千条为六个具体的问题类别,该工作聚焦于应用反馈的“负面”方面——这些信息常被忽视,却蕴含着丰富的线索,可用于修复漏洞、改进用户体验并提升评分。

关键贡献

  • 首个大规模低评分数据集,针对 Android 应用(64 个应用,79 821 条评论)。
  • 对 6 000 条评论进行人工标注,划分为六类明确的问题类型:UI/UX、功能性、兼容性、性能/稳定性、支持以及安全/隐私。
  • 开源发布原始数据和标注数据,支持可重复性研究和后续研究工作。
  • 基线分析问题出现频率和分布,为未来研究提供参考基准。
  • 自动化反馈分类框架,为能够大规模筛选负面评论的机器学习模型奠定基础。

方法论

  1. 应用选择 – 在 Amazon Software Appstore 中查询平均评分 ≤ 2.5 星的应用,得到跨多个类别(游戏、实用工具等)的 64 款不同应用。
  2. 评论收集 – 通过商店的公共 API 抓取所有可用的用户评论,得到 79 821 条文本条目。
  3. 问题分类法设计 – 基于已有工作,定义了六大类高层次问题类别,以捕捉低评分应用中最常见的痛点。
  4. 人工标注 – 由领域专家独立标注了 6 000 条评论;通过 Cohen’s κ ≈ 0.78 测得的标注者间一致性确保了可靠的真值。
  5. 数据集打包 – 在宽松许可证下发布原始 JSON 转储以及包含标注子集(评论文本、应用 ID、评分、问题标签)的 CSV 文件。

Results & Findings

  • Issue distribution: Performance/stability (≈ 28 %) and UI/UX (≈ 24 %) were most prevalent, followed by functionality (≈ 18 %). Security/privacy and support issues were rarer but present.
  • Review length & sentiment: Low‑rated reviews tended to be shorter and more emotionally charged (higher incidence of sarcasm and negative sentiment) compared to high‑rated counterparts reported in prior studies.
  • Cross‑app patterns: Certain issue types (e.g., crashes on specific device models) recurred across multiple apps, suggesting systemic compatibility challenges in the Amazon ecosystem.
  • Baseline classification: A simple TF‑IDF + Logistic Regression model achieved ~71 % accuracy on the 6 k annotated set, confirming that the taxonomy is learnable and that the dataset can serve as a benchmark for more sophisticated deep‑learning approaches.

实际意义

  • 自动化分流流水线 – 开发者可以将训练好的分类器集成到 CI/CD 或发布监控工具中,以标记新进的负面评论并将其路由到相应的工程团队(UI、后端、安全等)。
  • Bug 修复优先级 – 通过量化性能与 UI 投诉的比例,产品经理可以将资源分配到对评分恢复影响最大的地方。
  • 竞争情报 – 供应商可以将自家低评分应用与数据集进行基准对比,识别常见的失效模式,从而制定跨应用的整改策略。
  • 加强应用商店审核 – 商店运营方(如 Amazon、Google Play)可以利用该数据集训练审核机器人,检测辱骂语言、讽刺或隐私相关指控,提升用户信任。
  • 研究加速 – 开放数据集降低了在情感分析、讽刺检测以及专注于“负面反馈”细分领域的软件演化研究的入门门槛。

限制与未来工作

  • 平台范围 – 限于 Amazon Appstore;Google Play 的 Android 应用可能表现出不同的评论模式。
  • 时间偏差 – 评论是在单一时间点收集的;应用更新可能会改变问题分布,因此需要进行纵向研究。
  • 标注粒度 – 六个粗略类别捕捉了主要主题,但可能遗漏更细粒度的细微差别(例如网络延迟 vs. 电池消耗)。未来工作可以扩展分类法或采用层次标注。
  • 模型基线 – 仅评估了简单分类器;探索基于 transformer 的模型、多模态输入(评分、时间戳)以及迁移学习可能提升分类性能。

作者

  • Nek Dil Khan
  • Javed Ali Khan
  • Darvesh Khan
  • Jianqiang Li
  • Mumrez Khan
  • Shah Fahad Khan

论文信息

  • arXiv ID: 2601.03009v1
  • 类别: cs.SE
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »