[Paper] 自然语言摘要实现多仓库缺陷定位，使用LLMs在微服务架构中

发布: 2个月前 (2025年12月6日 GMT+8 01:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05908v1

概览

本文解决了现代微服务环境中最令人头疼的问题之一：在系统跨越数十个代码仓库时，找到导致 bug 的确切代码片段。通过将代码转换为分层的自然语言摘要，作者将 bug 定位转化为纯粹的 “文本‑到‑文本” 检索问题，使大型语言模型（LLM）能够比传统的代码中心技术更高效地处理。

层次化自然语言摘要：为微服务代码库中的每个文件、目录和仓库自动生成简洁的自然语言描述。
两阶段 NL‑to‑NL 检索：
1. 仓库路由 – 快速将搜索空间缩小到最相关的仓库。
2. 自上而下定位 – 使用相同的自然语言查询依次在仓库 → 目录 → 文件层级中钻取。
可扩展评估：在拥有 46 个仓库、约 110 万行代码的工业系统 DNext 上测试，达到 Pass@10 = 0.82 和 MRR = 0.50，远超经典信息检索基线以及 GitHub Copilot、Cursor 等代理式 RAG 工具。
可解释性：检索路径（仓库 → 目录 → 文件）以纯文本形式暴露，帮助开发者了解为何推荐特定位置。
LLM‑友好设计：始终保持在 LLM 的 token 窗口内（纯自然语言），规避了原始代码检索时的上下文长度限制。

代码摘要
- 通过微调的 LLM（如 GPT‑4‑Turbo）读取每个源文件并生成简短、易读的描述（例如 “通过 JWT 处理用户认证”）。
- 摘要向上聚合：目录摘要由其文件摘要合成，仓库摘要由其目录摘要合成。
索引构建
- 将所有摘要连同层级标识一起存入向量库（如 FAISS）。
两阶段检索
- 阶段 1 – 仓库路由：将 bug 报告（自然语言）嵌入后与仓库级摘要匹配，选出 top‑k 仓库。
- 阶段 2 – 自上而下定位：在每个选中的仓库内部，使用相同查询先匹配目录摘要，再匹配文件摘要，得到候选文件的排序列表。
打分与排序
- 查询与摘要嵌入的余弦相似度作为主要得分；轻量级的重排序步骤会加入元数据（如最近的提交活动）进行调优。

整个流水线只需一次纯 NL‑to‑NL 过程，避免了通常噪声大且计算量大的跨模态嵌入（代码 ↔ 文本）。

指标	Proposed NL‑Summaries	Traditional IR	Copilot‑RAG	Cursor‑RAG
Pass@10	0.82	0.41	0.53	0.48
MRR (Mean Reciprocal Rank)	0.50	0.22	0.31	0.28

结论：通过将 bug 定位重新构造为纯自然语言推理任务，作者展示了一种实用、可解释且性能出色的替代传统代码搜索的方法，这有望成为大规模微服务组织中 AI 辅助调试的基石。