[Paper] 来自 Amazon Appstore 的低评分应用数据集用于用户反馈分析

发布: 3个月前 (2026年1月6日 GMT+8 21:32)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.03009v1

概览

作者们提供了一个全新的、公开可用的数据集，专注于来自 Amazon Appstore 的 低评分 Android 应用。通过收集约 80 千条用户评论，并手动标注其中的 6 千条为六个具体的问题类别，该工作聚焦于应用反馈的“负面”方面——这些信息常被忽视，却蕴含着丰富的线索，可用于修复漏洞、改进用户体验并提升评分。

关键贡献

首个大规模低评分数据集，针对 Android 应用（64 个应用，79 821 条评论）。
对 6 000 条评论进行人工标注，划分为六类明确的问题类型：UI/UX、功能性、兼容性、性能/稳定性、支持以及安全/隐私。
开源发布原始数据和标注数据，支持可重复性研究和后续研究工作。
基线分析问题出现频率和分布，为未来研究提供参考基准。
自动化反馈分类框架，为能够大规模筛选负面评论的机器学习模型奠定基础。

方法论

应用选择 – 在 Amazon Software Appstore 中查询平均评分 ≤ 2.5 星的应用，得到跨多个类别（游戏、实用工具等）的 64 款不同应用。
评论收集 – 通过商店的公共 API 抓取所有可用的用户评论，得到 79 821 条文本条目。
问题分类法设计 – 基于已有工作，定义了六大类高层次问题类别，以捕捉低评分应用中最常见的痛点。
人工标注 – 由领域专家独立标注了 6 000 条评论；通过 Cohen’s κ ≈ 0.78 测得的标注者间一致性确保了可靠的真值。
数据集打包 – 在宽松许可证下发布原始 JSON 转储以及包含标注子集（评论文本、应用 ID、评分、问题标签）的 CSV 文件。

Results & Findings

Issue distribution: Performance/stability (≈ 28 %) and UI/UX (≈ 24 %) were most prevalent, followed by functionality (≈ 18 %). Security/privacy and support issues were rarer but present.
Review length & sentiment: Low‑rated reviews tended to be shorter and more emotionally charged (higher incidence of sarcasm and negative sentiment) compared to high‑rated counterparts reported in prior studies.
Cross‑app patterns: Certain issue types (e.g., crashes on specific device models) recurred across multiple apps, suggesting systemic compatibility challenges in the Amazon ecosystem.
Baseline classification: A simple TF‑IDF + Logistic Regression model achieved ~71 % accuracy on the 6 k annotated set, confirming that the taxonomy is learnable and that the dataset can serve as a benchmark for more sophisticated deep‑learning approaches.

实际意义

自动化分流流水线 – 开发者可以将训练好的分类器集成到 CI/CD 或发布监控工具中，以标记新进的负面评论并将其路由到相应的工程团队（UI、后端、安全等）。
Bug 修复优先级 – 通过量化性能与 UI 投诉的比例，产品经理可以将资源分配到对评分恢复影响最大的地方。
竞争情报 – 供应商可以将自家低评分应用与数据集进行基准对比，识别常见的失效模式，从而制定跨应用的整改策略。
加强应用商店审核 – 商店运营方（如 Amazon、Google Play）可以利用该数据集训练审核机器人，检测辱骂语言、讽刺或隐私相关指控，提升用户信任。
研究加速 – 开放数据集降低了在情感分析、讽刺检测以及专注于“负面反馈”细分领域的软件演化研究的入门门槛。

限制与未来工作

平台范围 – 限于 Amazon Appstore；Google Play 的 Android 应用可能表现出不同的评论模式。
时间偏差 – 评论是在单一时间点收集的；应用更新可能会改变问题分布，因此需要进行纵向研究。
标注粒度 – 六个粗略类别捕捉了主要主题，但可能遗漏更细粒度的细微差别（例如网络延迟 vs. 电池消耗）。未来工作可以扩展分类法或采用层次标注。
模型基线 – 仅评估了简单分类器；探索基于 transformer 的模型、多模态输入（评分、时间戳）以及迁移学习可能提升分类性能。

作者

Nek Dil Khan
Javed Ali Khan
Darvesh Khan
Jianqiang Li
Mumrez Khan
Shah Fahad Khan

论文信息

arXiv ID: 2601.03009v1
类别: cs.SE
出版日期: 2026年1月6日
PDF: 下载 PDF

[Paper] 来自 Amazon Appstore 的低评分应用数据集用于用户反馈分析

概览

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] SSR：通过定义和检测 DeFi 质押中的逻辑缺陷来保障质押奖励

[Paper] EET：经验驱动的提前终止以实现成本高效的软件工程代理

[Paper] StriderSPD：结构引导的联合表征学习用于二进制安全补丁检测

[Paper] 从问题到洞察：基于RAG的解释生成来自软件工程制品