[Paper] 来自 Amazon Appstore 的低评分应用数据集用于用户反馈分析
发布: (2026年1月6日 GMT+8 21:32)
6 min read
原文: arXiv
Source: arXiv - 2601.03009v1
概览
作者们提供了一个全新的、公开可用的数据集,专注于来自 Amazon Appstore 的 低评分 Android 应用。通过收集约 80 千条用户评论,并手动标注其中的 6 千条为六个具体的问题类别,该工作聚焦于应用反馈的“负面”方面——这些信息常被忽视,却蕴含着丰富的线索,可用于修复漏洞、改进用户体验并提升评分。
关键贡献
- 首个大规模低评分数据集,针对 Android 应用(64 个应用,79 821 条评论)。
- 对 6 000 条评论进行人工标注,划分为六类明确的问题类型:UI/UX、功能性、兼容性、性能/稳定性、支持以及安全/隐私。
- 开源发布原始数据和标注数据,支持可重复性研究和后续研究工作。
- 基线分析问题出现频率和分布,为未来研究提供参考基准。
- 自动化反馈分类框架,为能够大规模筛选负面评论的机器学习模型奠定基础。
方法论
- 应用选择 – 在 Amazon Software Appstore 中查询平均评分 ≤ 2.5 星的应用,得到跨多个类别(游戏、实用工具等)的 64 款不同应用。
- 评论收集 – 通过商店的公共 API 抓取所有可用的用户评论,得到 79 821 条文本条目。
- 问题分类法设计 – 基于已有工作,定义了六大类高层次问题类别,以捕捉低评分应用中最常见的痛点。
- 人工标注 – 由领域专家独立标注了 6 000 条评论;通过 Cohen’s κ ≈ 0.78 测得的标注者间一致性确保了可靠的真值。
- 数据集打包 – 在宽松许可证下发布原始 JSON 转储以及包含标注子集(评论文本、应用 ID、评分、问题标签)的 CSV 文件。
Results & Findings
- Issue distribution: Performance/stability (≈ 28 %) and UI/UX (≈ 24 %) were most prevalent, followed by functionality (≈ 18 %). Security/privacy and support issues were rarer but present.
- Review length & sentiment: Low‑rated reviews tended to be shorter and more emotionally charged (higher incidence of sarcasm and negative sentiment) compared to high‑rated counterparts reported in prior studies.
- Cross‑app patterns: Certain issue types (e.g., crashes on specific device models) recurred across multiple apps, suggesting systemic compatibility challenges in the Amazon ecosystem.
- Baseline classification: A simple TF‑IDF + Logistic Regression model achieved ~71 % accuracy on the 6 k annotated set, confirming that the taxonomy is learnable and that the dataset can serve as a benchmark for more sophisticated deep‑learning approaches.
实际意义
- 自动化分流流水线 – 开发者可以将训练好的分类器集成到 CI/CD 或发布监控工具中,以标记新进的负面评论并将其路由到相应的工程团队(UI、后端、安全等)。
- Bug 修复优先级 – 通过量化性能与 UI 投诉的比例,产品经理可以将资源分配到对评分恢复影响最大的地方。
- 竞争情报 – 供应商可以将自家低评分应用与数据集进行基准对比,识别常见的失效模式,从而制定跨应用的整改策略。
- 加强应用商店审核 – 商店运营方(如 Amazon、Google Play)可以利用该数据集训练审核机器人,检测辱骂语言、讽刺或隐私相关指控,提升用户信任。
- 研究加速 – 开放数据集降低了在情感分析、讽刺检测以及专注于“负面反馈”细分领域的软件演化研究的入门门槛。
限制与未来工作
- 平台范围 – 限于 Amazon Appstore;Google Play 的 Android 应用可能表现出不同的评论模式。
- 时间偏差 – 评论是在单一时间点收集的;应用更新可能会改变问题分布,因此需要进行纵向研究。
- 标注粒度 – 六个粗略类别捕捉了主要主题,但可能遗漏更细粒度的细微差别(例如网络延迟 vs. 电池消耗)。未来工作可以扩展分类法或采用层次标注。
- 模型基线 – 仅评估了简单分类器;探索基于 transformer 的模型、多模态输入(评分、时间戳)以及迁移学习可能提升分类性能。
作者
- Nek Dil Khan
- Javed Ali Khan
- Darvesh Khan
- Jianqiang Li
- Mumrez Khan
- Shah Fahad Khan
论文信息
- arXiv ID: 2601.03009v1
- 类别: cs.SE
- 出版日期: 2026年1月6日
- PDF: 下载 PDF