[Paper] AlignCoder:将检索与目标意图对齐以实现仓库级代码补全

发布: (2026年1月27日 GMT+8 23:23)
2 分钟阅读
原文: arXiv

Source: arXiv - 2601.19697v1

概览

仓库级代码补全对现有代码大语言模型(code LLM)仍然是一个挑战,因为它们对仓库特定上下文和领域知识的理解有限。虽然检索增强生成(RAG)方法通过检索相关代码片段作为跨文件上下文展示了潜力,但它们存在两个根本性问题:

  1. 检索过程中的查询与目标代码之间不对齐。
  2. 现有检索方法无法有效利用推理信息。

为了解决这些挑战,我们提出 AlignCoder,一个仓库级代码补全框架,提出了:

  • 查询增强机制:生成多个候选补全以构建增强查询,弥合初始查询与目标代码之间的语义鸿沟。
  • 基于强化学习的检索器训练方法:训练 AlignRetriever,利用增强查询中的推理信息实现更准确的检索。

我们在两个广泛使用的基准(CrossCodeEval 和 RepoEval)上,对五种主流代码 LLM 进行评估,显示在 CrossCodeEval 基准上相较于基线提升了 18.1 % 的 EM 分数。结果表明该方法在不同代码 LLM 和编程语言之间具有出色的性能和高度的通用性。

关键贡献

  • cs.SE
  • cs.AI

方法论

请参阅完整论文获取详细的方法论。

实际意义

本研究有助于推动 cs.SE 的发展。

作者

  • Tianyue Jiang
  • Yanli Wang
  • Yanlin Wang
  • Daya Guo
  • Ensheng Shi
  • Yuchi Ma
  • Jiachi Chen
  • Zibin Zheng

论文信息

  • arXiv ID: 2601.19697v1
  • 分类: cs.SE, cs.AI
  • 发布日期: 2026 年 1 月 27 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

xAI 加入 SpaceX

请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。