[Paper] 通过主动学习和可解释AI降低架构技术债务检测中的标注工作量

发布: 3天前 (2026年3月3日 GMT+8 20:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02944v1

概述

检测 架构技术债务 (ATD)——即开发者在问题追踪器、评论和提交信息中承认的隐藏的、设计层面的取巧——通常需要大量人工标注工作。本文展示了如何通过 关键词过滤、主动学习和可解释人工智能 (XAI) 的组合，将所需的标注工作量削减近一半，同时仍能提供一个稳健的分类器（F1 ≈ 0.72）。

关键贡献

Keyword‑driven pre‑filtering：提取了 57 条经过专家验证的 ATD 示例，构建了高精度关键词集合，将超过 103 k 条原始 Jira 问题的池子缩减为可管理的候选集。
Active‑learning pipeline：比较了多种查询策略（例如不确定性、Breaking Ties），并证明 Breaking Ties 策略在性能与标注成本之间始终提供最佳平衡。
Explainability integration：对训练好的 ATD 分类器应用 SHAP 和 LIME，为开发者提供每个预测的人类可读解释。
Empirical validation：与领域专家进行定性评估，确认这些解释具有实用价值，且 LIME 因其清晰度通常更受青睐。

方法论

数据集细化 – 从先前的 ATD 数据集（116 个 Jira 问题）开始，在专家验证后，保留了 57 条高质量示例。
关键词提取 – 使用已验证的条目挖掘代表性术语（例如 “refactor”、 “architecture”、 “design debt”）。随后将这些术语作为过滤器应用于十个开源项目，筛选出约 103 k 条潜在的 ATD 票据。
抽样评估 – 随机选择过滤后票据的统计代表性子集进行人工验证，建立可靠的真实标签。
主动学习循环 – 在最初标记的数据上训练轻量级分类器（如逻辑回归 / SVM）。在每次迭代中，模型根据不同策略（不确定性、打破平局、随机）查询信息量最大的未标记实例。人工标注者仅标记这些查询项，随后重新训练模型。
可解释性层 – 在最终模型训练完成后，生成 SHAP（全局/局部特征重要性）和 LIME（局部代理解释）以解释预测。专家审阅了一批解释，以评估其可理解性和实用性。

结果与发现

方面	结果
标注工作量	与标注整个过滤后的集合相比，Breaking Ties 主动学习将所需标注数量降低了 ≈ 49 %。
分类性能	最佳 F1 分数为 0.72（Breaking Ties），优于随机和基本不确定性策略。
关键词过滤器可靠性	对代表性样本的定性审计确认，关键词过滤器保留了真实 ATD 问题的高精度子集。
可解释性反馈	SHAP 和 LIME 都提供了合理的解释；LIME 因其简洁性和更清晰的可视化而更受青睐。
可扩展性	该流水线在十个项目中处理了超过 100 k 条候选问题，使用的计算资源有限，展示了实际可行性。

实际意义

更快的债务分流 – 团队可以将关键字 + 主动学习工作流集成到 CI/CD 流水线中，提前发现架构债务，而无需为每个问题标注标签的开销。
优先级修复 – 通过将人工审查集中在最“信息量大”的工单上，开发者可以减少噪音，更多地投入到高影响力的设计修复中。
为利益相关者提供透明度 – 可解释的输出（LIME/SHAP）让产品负责人和架构师对自动化决策充满信心，促进债务削减计划的认同。
工具化机会 – 该方法可以封装成 IDE 插件或问题追踪机器人，建议“可能的 ATD”标签并提供即时解释，使债务检测成为协作的、持续的活动。

限制与未来工作

领域特异性 – 关键字来源于相对较小、人工策划的 ATD 集合；向其他领域（例如微服务、云原生）的迁移可能需要重新调优。
模型简易性 – 本研究使用了经典分类器；探索深度学习或基于 Transformer 的模型可能进一步提升准确率，尽管会带来更高的计算成本。
可解释性深度 – 虽然更倾向于 LIME，但两种 XAI 方法有时会突出无关特征；未来工作可研究混合或领域感知的解释技术。
长期维护 – 随着项目词汇的演变，关键字列表和主动学习查询策略可能需要定期更新以保持有效性。

底线：通过将轻量级关键字过滤与智能主动学习以及面向开发者的解释相结合，作者提出了一条在大规模检测架构层面技术债务的务实路径——将标注工作量减半，同时保持模型足够可信以实现真实场景的采用。

作者

Edi Sutoyo
Paris Avgeriou
Andrea Capiluppi

论文信息

arXiv ID: 2603.02944v1
分类: cs.SE
出版时间: 2026年3月3日
PDF: 下载 PDF

[Paper] 通过主动学习和可解释AI降低架构技术债务检测中的标注工作量

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 您为何向 Stack Overflow 贡献内容？在 LLM 时代之前，跨文化动机与使用模式的理解

[论文] RippleGUItester：变更感知的探索性测试

[论文] 它活了！Live Object Environment 在软件工程实践中的变化

[论文] ICSE 2023 可持续性报告