[Paper] 用机器学习改进深度学习库测试

发布: 5天前 (2026年2月4日 GMT+8 01:19)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.03755v1

（请提供您希望翻译的正文内容，我将按照要求进行简体中文翻译并保留原有的格式。）

Overview

深度学习框架如 TensorFlow 和 PyTorch 为无数 AI 产品提供动力，然而它们庞大且高度动态的 API 却出人意料地容易出错。本文展示了一种轻量级机器学习分类器——基于在 API 调用中流动的张量形状进行训练——能够自动学习库的“合法”输入空间，并显著减少自动化测试工具中的误报。

数据收集: 随机为每个目标 API 生成具体输入（例如，不同维度、数据类型和值的张量）。执行调用并记录是成功还是抛出错误。
形状提取: 对每个输入，仅保留张量形状（例如 [32, 64]、[None, 128]）以及附加元数据（dtype、参数数量）。这将特征空间从数百万可能的数值降至少量的类别/序数特征。
标注: 运行时结果（通过/失败）作为真实标签。
模型训练: 在基于形状的特征向量上训练标准监督分类器（随机森林、XGBoost、浅层神经网络）。通过交叉验证进行超参数调优。
评估: 将数据集按每个 API 划分为训练集和保留集，测量准确率、精确率、召回率和 F1 分数。
工具集成: 用训练好的分类器替代 ACETest 的启发式输入验证步骤，使 bug‑finder 在更深层次的符号执行之前剔除明显无效的输入。

Classification performance: 在所有 183 个 API 中，表现最佳的模型达到 91.3 % 准确率，大多数 API 的精确率/召回率均超过 0.9。
Generalization: 在子集输入上训练的模型能够正确分类 > 85 % 的全新形状组合，证明形状抽象捕获了关键约束。
Impact on bug‑finding: 当分类器用于过滤无效测试用例时，ACETest 的 pass rate（即有意义的生成测试所占比例）从 ~29 % 提升至 ~61 %，效率提升超过一倍。
False‑positive reduction: 误报的数量（被标记为 bug 的无效输入）下降约 70 %，为开发者在 triage 中节省了大量时间。

底线: 通过将看似混乱的深度学习库输入验证问题转化为可处理的机器学习任务，这项工作提供了一个实用的即插即用组件，能够显著提升 TensorFlow、PyTorch 等框架的自动化测试效率，使其更友好于开发者。