[Paper] Parallel‑SFT：提升零样本跨编程语言迁移的代码RL

发布: 2天前 (2026年4月23日 GMT+8 01:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.20835v1

概览

本文介绍了 Parallel‑SFT，一种新的微调方案，帮助用于代码生成的大语言模型（LLM）在强化学习（RL）阶段将其技能迁移到在训练中从未见过的编程语言。通过在监督微调（SFT）阶段混入“并行程序”——即同一算法用多种语言实现——作者展示了随后在单一源语言（例如 Python）上进行的 RL 不再对低资源目标语言（如 Rust 或 Julia）的性能产生负面影响，甚至常常提升性能。

关键贡献

零样本跨语言迁移任务 用于代码生成强化学习，突显当前基于 RL 的代码模型存在的空白。
实证发现 表明，在源语言上进行朴素的 RL 可能会削弱在未见语言上的性能，即使是像 Llama‑3.1 这样强大的模型亦如此。
并行 SFT 训练策略 将来自多种语言的功能等价代码片段注入 SFT 数据混合中。
展示了改进 在下游 RL 迁移中的效果：使用并行 SFT 微调的模型在一系列未见目标语言上保持或提升性能。
表征分析 显示出更“以功能为中心”的潜在空间，其中跨语言的等价程序聚类紧密。

方法论

数据集构建 – 作者收集 并行程序：在不同语言中实现相同算法的代码对（或三元组）（例如，Python、C++ 和 Rust 中的快速排序）。
Parallel‑SFT – 在监督微调期间，训练批次混合标准单语言示例与这些并行示例，鼓励模型学习语言无关的功能模式。
RL 阶段 – SFT 之后，模型在仅 源语言（拥有丰富奖励信号的语言）上进行强化学习（例如 PPO）。
评估 – 在从未出现在 RL 阶段的目标语言的保留测试集上测量零样本性能。指标包括 pass@k、功能正确性和代码相似度。
潜在空间探测 – 对并行程序的嵌入向量进行可视化和聚类，以评估模型是否将功能等价的代码聚集在一起。

管道故意保持简洁：用 Parallel‑SFT 替代常规 SFT 步骤，保持 RL 算法不变，并在没有任何额外目标语言数据的情况下测试可迁移性。

结果与发现

模型	训练方案	Pass@1 (Python)	Pass@1 (Rust)	Pass@1 (Julia)
Llama‑3.1 (base)	–	38%	12%	10%
Llama‑3.1 + standard SFT + RL (Python)	性能下降	44%	8%	7%
Llama‑3.1 + Parallel‑SFT + RL (Python)	性能提升	45%	15%	13%

RL 在单一源语言上可能会损害低资源语言 – 这是一种令人惊讶的负迁移效应。
Parallel‑SFT 在未见语言上恢复并超越基线性能，相较于性能下降的 RL 基线提升了 3–5 倍。
表示分析 表明，在 Parallel‑SFT 之后，不同语言的平行程序的嵌入位于更紧密的簇中（平均簇内距离下降 27%），暗示模型已经学习到语言无关的功能编码。

实际意义

多语言代码助手 – 公司可以在少量平行程序上微调单一大型语言模型，然后在最流行的语言（例如 Python）上安全地进行强化学习，而不必担心内部使用的冷门语言出现回退。
成本效益高的数据收集 – 平行程序可以自动生成（例如通过转译器）或从开源仓库中挑选，降低对大规模语言特定奖励数据集的需求。
更好的调试与重构工具 – 以功能为中心的潜在空间使得将一种语言中发现的 bug 修复映射到另一种语言的等价修改更加容易，从而实现跨语言建议。
“代码无关”代理的基础 – Parallel‑SFT 为能够基于算法而非语法进行推理的代理铺平道路，可能提升算法合成、教育辅导和自动代码翻译等任务。

限制与未来工作

平行数据质量 – 该方法依赖于正确对齐的实现；噪声或语义上不一致的配对可能误导模型。
对多语言的可扩展性 – 实验仅覆盖少数目标语言；扩展到数十种语言可能需要更智能的抽样或课程策略。
强化学习奖励设计 – 本研究使用标准的 pass@k 奖励；探索更丰富的信号（例如性能、内存使用）可以进一步检验迁移鲁棒性。
长程依赖 – 当前分析聚焦于单函数代码片段；未来工作应评估 Parallel‑SFT 是否对更大的代码库和多模块项目有帮助。

底线：Parallel‑SFT 为希望在多语言技术栈中利用强化学习增强的代码生成且不牺牲低资源语言性能的开发者提供了实用方案。通过在早期将模型基于语言无关的功能进行训练，它释放出更可靠的跨语言代码智能。

作者

Zhaofeng Wu
Shiqi Wang
Boya Peng
Anuj Goyal
Melanie Kambadur
Sebastian Ruder
Yoon Kim
Chloe Bi

论文信息

arXiv ID: 2604.20835v1
类别: cs.CL
出版时间: 2026年4月22日
PDF: 下载 PDF

[Paper] Parallel‑SFT：提升零样本跨编程语言迁移的代码RL

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 使用生成式大型语言模型评估自动语音识别

[Paper] MathDuels：评估 LLM 作为出题者和求解者

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] GiVA：梯度感知基用于基于向量的适应