[Paper] AlignCoder：将检索与目标意图对齐以实现仓库级代码补全

发布: 1周前 (2026年1月27日 GMT+8 23:23)

2 分钟阅读

原文: arXiv

Source: arXiv - 2601.19697v1

概览

仓库级代码补全对现有代码大语言模型（code LLM）仍然是一个挑战，因为它们对仓库特定上下文和领域知识的理解有限。虽然检索增强生成（RAG）方法通过检索相关代码片段作为跨文件上下文展示了潜力，但它们存在两个根本性问题：

检索过程中的查询与目标代码之间不对齐。
现有检索方法无法有效利用推理信息。

为了解决这些挑战，我们提出 AlignCoder，一个仓库级代码补全框架，提出了：

查询增强机制：生成多个候选补全以构建增强查询，弥合初始查询与目标代码之间的语义鸿沟。
基于强化学习的检索器训练方法：训练 AlignRetriever，利用增强查询中的推理信息实现更准确的检索。

我们在两个广泛使用的基准（CrossCodeEval 和 RepoEval）上，对五种主流代码 LLM 进行评估，显示在 CrossCodeEval 基准上相较于基线提升了 18.1 % 的 EM 分数。结果表明该方法在不同代码 LLM 和编程语言之间具有出色的性能和高度的通用性。

关键贡献

cs.SE
cs.AI

方法论

请参阅完整论文获取详细的方法论。

实际意义

本研究有助于推动 cs.SE 的发展。

作者

Tianyue Jiang
Yanli Wang
Yanlin Wang
Daya Guo
Ensheng Shi
Yuchi Ma
Jiachi Chen
Zibin Zheng

论文信息

arXiv ID: 2601.19697v1
分类: cs.SE, cs.AI
发布日期: 2026 年 1 月 27 日
PDF: Download PDF

相关文章

阅读更多 »

用于可扩展高性能策略优化的分布式强化学习

利用大规模并行、异步更新和多机训练，以匹配并超越人类水平的表现 The post Distributed Reinforcement...

xAI 加入 SpaceX

请提供您希望翻译的具体摘录或摘要文本，我才能为您进行简体中文翻译。

Adam Neely：Suno、AI音乐与糟糕的未来

这段视频全力聚焦Suno，这个AI音乐生成器，并编织出它可能正在塑造的相当阴暗的未来故事。它挑起棘手的问题，剖析为什么A...

交叉熵导数，第2部分：对偏置的导数设置

引言在上一篇文章中，我们回顾了处理 cross‑entropy 导数所需的关键思想。在本文中，我们设置导数步骤……