[Paper] TAROT：测试驱动和能力自适应的课程强化微调用于大语言模型的代码生成

发布: 3天前 (2026年2月17日 GMT+8 17:29)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.15449v1

概述

本文介绍了 TAROT，一种新颖的强化‑微调框架，教会大型语言模型（LLMs）编写更可靠、算法上更复杂的代码。通过将测试驱动的奖励与能力感知的课程相结合，TAROT 让模型能够按照从易到难（或相反）的方式学习，以匹配其当前的技能水平，从而显著提升功能正确性。

关键贡献

四层测试套件（基础、中等、复杂、边缘）针对每个编码问题，提供细粒度难度映射。
能力自适应课程：课程进度基于模型的内在能力而非原始奖励大小来选择。
奖励与课程解耦：将用于优化的信号与难度排序分离，导致梯度更新更稳定。
经验发现一种“模型依赖的课程法则”：较弱的模型受益于由易到难的顺序，而较强的模型在先难后易的安排中表现更佳。
开源发布代码、数据和可复现的训练流水线（GitHub: deep-diver/TAROT）。

方法论

问题级别测试生成 – 对于每个编码提示，作者会自动生成四组单元测试，针对逐渐增加的逻辑深度和边缘案例覆盖。
能力估计 – 在微调之前，一个轻量级探针评估基础大模型的代码生成能力（例如，在基础层级的通过率）。
课程策略池 – 预先定义了几种课程策略（例如，易→难，难→易，随机）。
策略选择 – 使用能力估计，TAROT 为该模型选择能够最大化预期奖励增益的课程。
强化微调 – 模型使用标准的强化学习目标（例如 PPO）进行训练，奖励为当前层级中通过测试的比例。由于层级顺序由所选策略固定，奖励分布在整个训练过程中保持平衡。

整个流水线是模块化的，开发者可以插入自己的大模型、测试生成器或课程启发式方法。

结果与发现

功能正确性 在使用适当课程时，对 2.7 B 参数模型的 HumanEval 基准提升了 +18 %。
对边缘案例的鲁棒性 提升了 +22 %，表明对罕见或异常输入的处理更好。
消融研究表明，将课程与原始奖励解耦 将训练损失的方差降低约 30 %，从而加快收敛速度。
“由易到难”课程对参数低于 6 B 的模型提升最大，而 “先难后易” 则为 13 B 以上的模型带来最高增益。

实际影响

更好的代码助手：将 TAROT 融入代码生成产品（例如 Copilot 风格的工具）的微调阶段，可提升生成代码片段的通过率，减少手动调试的需求。
成本效益模型扩展：通过采用合适的课程安排，较小的语言模型也能达到与更大、更昂贵模型相当的性能，从而节省计算和推理成本。
自动化测试生成流水线：四层级测试套件可作为任何代码生成模型的标准评估工具，简化 AI 驱动开发工具的 CI/CD 流程。
自适应部署：服务可以根据模型的实际成功率动态选择课程，实现对新领域或新语言的即时微调。

限制与未来工作

当前的测试生成器专注于 Python，可能需要针对其他语言或特定领域的 API 进行适配。
能力估计依赖于简单的探针；更丰富的诊断（例如推理轨迹分析）可以进一步细化课程选择。
本研究主要在合成基准上进行评估；实际 IDE 集成和用户研究留待未来研究。

TL;DR

TAROT 表明 “一刀切并不适用于所有情况” 在代码生成微调中。通过将课程难度与模型的技能匹配，开发者可以从大型语言模型中提取显著更可靠的代码，而不会导致计算预算激增。开源工具包让您今天就能轻松在自己的模型上尝试这种方法。

作者

Chansung Park
Juyong Jiang
Fan Wang
Sayak Paul
Jiasi Shen
Jing Tang
Jianguo Li

论文信息

arXiv ID: 2602.15449v1
分类: cs.CL, cs.LG, cs.SE
发表时间: 2026年2月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

扩散语言模型（Diffusion Language Models，DLMs）由于迭代去噪导致推理成本高，因而激励高效剪枝。现有的剪枝启发式方法大多继承……

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…

[论文] 级联等价假设：何时语音 LLM 的行为类似于 ASR→LLM 管道？

当前的语音大语言模型在很大程度上执行隐式 ASR：在可以通过转录本解决的任务上，它们在行为上和机制上等同于简单的 WhispertoL……

[Paper] KLong：训练 LLM 代理用于极长时程任务

本文介绍了 KLong，这是一款开源的 LLM 代理，经过训练以解决极长时域任务。其原理是首先通过冷启动模型，利用轨迹……