[Paper] 更深入思考，别忽视你的选项：重新审视 Issue-Commit 链接与 LLM 辅助检索

发布: 4天前 (2026年5月1日 GMT+8 14:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.00447v1

概述

将问题报告链接到修复它们的提交是软件可追溯性的基石，但手动完成这一工作既繁琐又容易出错。本文重新审视了一系列经典和现代的问题‑提交链接技术，评估它们在检索和排序候选提交方面的表现，并探讨重量级的大型语言模型（LLM）是否相较于更轻量、传统的方法能够带来可衡量的提升。

数据准备 – 作者从开源项目中收集了大量的 issue‑commit 对，并将其划分为训练、验证和测试集。
检索阶段 – 将每个 issue 作为查询，检索出候选 commit 的短列表。
- 稀疏方法依赖词频统计（BM25/BM25L）。
- 密集方法将 issue 和 commit 嵌入到向量空间（SBERT），并使用 ANNOY、LSH 或 HNSW 进行近似最近邻搜索。
重排序阶段 – 将短列表输入第二个模型，对每个候选进行打分：
- 传统机器学习：使用词汇重叠、时间距离、文件路径相似度等特征，输入逻辑回归或 XGBoost。
- Cross‑encoder：一种 BERT‑style 模型，联合编码 issue 与 commit 文本。
- 基于 LLM：将提示发送给 ChatGPT、Qwen、Gemma 和 Llama，模型返回相关性分数或二元决策。
评估指标 – 报告每个流水线的 Recall@k（前 k 条中出现真实链接的比例）、MAP 和 precision@1。
效率测量 – 记录墙钟时间和内存消耗，以评估可扩展性。

检索方法	召回率@100	平均候选数	速度（毫秒/查询）
BM25	0.62	1500	12
SBERT‑HNSW	0.78	300	8
Hybrid (BM25 + SBERT)	0.84	350	10

重排序模型	MAP	P@1	推理时间（毫秒）
Logistic Regression（手工特征）	0.71	0.58	1
XGBoost	0.69	0.55	2
Cross‑encoder (BERT)	0.66	0.51	15
ChatGPT (gpt‑4‑turbo)	0.58	0.44	120
Qwen / Gemma / Llama	0.55‑0.57	0.40‑0.42	100‑130

总体而言，最佳的端到端流水线是 SBERT‑HNSW 检索 + logistic‑regression 重排序，实现了 0.71 的 MAP 并保持亚秒级响应时间——非常适合 CI/CD 集成。

CI流水线工具 – 团队可以将密集检索 + 轻量级机器学习重排序器嵌入自动化发布工作流中，自动填充 issue 与 commit 的关联，减少手动记账。
成本效益的可追溯性 – 组织可以避免对专有大语言模型服务的高额 API 调用，同时仍然获得最先进的链接性能。
可扩展性 – 近似最近邻索引（HNSW）可以在适度内存下扩展到数百万次提交，使该方法在大型单体仓库中可行。
混合检索作为安全网 – 添加 BM25 步骤可以捕获嵌入可能遗漏的边缘案例词汇匹配，提高召回率且几乎没有额外惩罚。

底线：对于大多数开发团队而言，将密集检索前端与简单、调优良好的机器学习重排序器结合使用，在自动化问题‑提交链接时能够在准确性、速度和成本之间提供最佳平衡。