[Paper] AlignCoder:将检索与目标意图对齐以实现仓库级代码补全
发布: (2026年1月27日 GMT+8 23:23)
2 分钟阅读
原文: arXiv
Source: arXiv - 2601.19697v1
概览
仓库级代码补全对现有代码大语言模型(code LLM)仍然是一个挑战,因为它们对仓库特定上下文和领域知识的理解有限。虽然检索增强生成(RAG)方法通过检索相关代码片段作为跨文件上下文展示了潜力,但它们存在两个根本性问题:
- 检索过程中的查询与目标代码之间不对齐。
- 现有检索方法无法有效利用推理信息。
为了解决这些挑战,我们提出 AlignCoder,一个仓库级代码补全框架,提出了:
- 查询增强机制:生成多个候选补全以构建增强查询,弥合初始查询与目标代码之间的语义鸿沟。
- 基于强化学习的检索器训练方法:训练 AlignRetriever,利用增强查询中的推理信息实现更准确的检索。
我们在两个广泛使用的基准(CrossCodeEval 和 RepoEval)上,对五种主流代码 LLM 进行评估,显示在 CrossCodeEval 基准上相较于基线提升了 18.1 % 的 EM 分数。结果表明该方法在不同代码 LLM 和编程语言之间具有出色的性能和高度的通用性。
关键贡献
- cs.SE
- cs.AI
方法论
请参阅完整论文获取详细的方法论。
实际意义
本研究有助于推动 cs.SE 的发展。
作者
- Tianyue Jiang
- Yanli Wang
- Yanlin Wang
- Daya Guo
- Ensheng Shi
- Yuchi Ma
- Jiachi Chen
- Zibin Zheng
论文信息
- arXiv ID: 2601.19697v1
- 分类: cs.SE, cs.AI
- 发布日期: 2026 年 1 月 27 日
- PDF: Download PDF