[Paper] SAP HANA 环境中的 Flaky Tests 词汇

发布: 3天前 (2026年2月27日 GMT+8 19:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23957v1

概述

本文研究了如何通过挖掘测试源代码中使用的词汇，自动识别 flaky 自动化测试——即因无代码更改而间歇性失败的测试。通过在庞大的 SAP HANA 代码库中复现先前的工作，并尝试更新的文本挖掘和机器学习技术，作者展示了高精度分类器是可行的，但其产生的洞察对开发者而言难以付诸行动。

数据收集 – 作者收集了三个标记数据集：Pinto 等人使用的原始数据集，以及从 SAP HANA 测试套件中提取的两个新数据集，每个数据集都包含经工程师手动验证的 flaky（不稳定）和 stable（稳定）测试。
标识符提取 – 从每个测试文件中解析所有源代码标识符（方法名、变量名、类名等），这些标识符可作为文本线索。
特征工程
- TF‑IDF：经典的词袋加权。
- TF‑IDFC‑RF：在 TF‑IDF 基础上，通过降低在 flaky 与 stable 测试中频繁出现的词的权重、提升特定类词的权重来进行扩展。
模型训练 – 对每个特征集训练了两种分类器：
- CodeBERT – 预训练的 Transformer，针对标识符序列进行微调。
- XGBoost – 适用于稀疏高维文本特征的梯度提升决策树模型。
评估 – 使用标准的 5 折交叉验证测量精确率、召回率和 F1‑score。将原始数据集的结果与 SAP HANA 数据集的结果进行比较，以评估可迁移性。

数据集	特征	模型	F1‑Score
Original (Pinto)	TF‑IDF	XGBoost	0.94
SAP HANA #1	TF‑IDF	XGBoost	0.92
SAP HANA #2	TF‑IDFC‑RF	CodeBERT	0.99
SAP HANA #2	TF‑IDFC‑RF	XGBoost	0.96

Actionability gap – 虽然分类器实现了高 F1‑scores，但它们仅输出二元的 flaky/not‑flaky 标签；并未解释 为什么 测试会出现 flaky，这限制了对开发者的实用性。
Dataset bias – 本研究聚焦于 SAP HANA，一个数据库密集型系统；对于 UI‑heavy 或 embedded‑software 项目，结果可能会有所不同。
Static analysis only – 动态因素（如时序、线程调度）导致的 flaky 对基于标识符的模型是不可见的。
Future directions suggested include: (1) enriching the model with execution‑trace features, (2) generating natural‑language explanations for flagged tests, and (3) evaluating the approach across diverse domains to assess generalizability.