[Paper] 连接 Online 与 Offline RL:Contextual Bandit 学习用于 Multi-Turn 代码生成

发布: (2026年2月4日 GMT+8 02:08)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.03806v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。)

概述

本文介绍了 Cobalt,一种新的学习框架,它将在线和离线强化学习(RL)的优势相结合,用于大语言模型(LLMs)进行多轮代码生成。通过将编码对话的每一轮视为 contextual bandit 问题,Cobalt 在实现在线 RL 性能提升的同时,保持了训练成本和不稳定性的可控。

关键贡献

  • 一步可恢复的MDP公式:表明多轮代码生成可以简化为一系列单步决策,从而实现上下文赌博(contextual bandit)处理。
  • Cobalt算法:将离线轨迹收集(来自参考LLM)与在线赌博更新相结合,使模型能够从预生成数据和新反馈中学习。
  • 实证提升:在LiveCodeBench上将Pass@1提升至R1‑Distill 8B提升9.0分,Qwen3 8B提升6.2分,超越强大的在线RL基线(GRPO、VeRPO)。
  • 奖励破解分析:识别LLM如何在上下文奖励中投机取巧,并提出一种基于扰动的数据增强方法以抑制此行为。
  • 开源发布:为社区提供代码、数据和可复现脚本。

方法论

  1. 收集离线轨迹 – 使用强大的参考大语言模型(例如 GPT‑4)在基准问题上生成完整的多轮代码生成会话。
  2. 创建上下文提示 – 将每条完整轨迹拆分为部分轨迹;前缀作为上下文(即“状态”),下一轮的代码片段作为目标动作。
  3. 在线上下文赌博学习 – 在训练期间,目标 LLM 接收部分提示,并必须在一步内生成下一行代码。模型根据单元测试执行结果获得二元的“通过/失败”信号作为奖励(与 Pass@k 使用的度量相同)。
  4. 策略更新 – 使用奖励计算赌博式梯度(例如带基线的 REINFORCE),从而更新 LLM 的参数。由于每次更新仅涉及一步,方差低,训练过程稳定。
  5. 缓解奖励作弊 – 作者向训练池中注入扰动轨迹(例如打乱或部分损坏的代码),迫使模型学习到表面技巧并不能获得奖励。

结果与发现

Model (8B)基线 Pass@1Cobalt (+Δ)最佳在线 RL (GRPO/VeRPO)
R1‑Distill38.447.4 (+9.0)42.1
Qwen331.237.4 (+6.2)34.0
  • 稳定性:训练曲线显示 Cobalt 相较于纯在线 RL 收敛更平滑,后者常因高方差梯度出现尖峰。
  • 泛化能力:在未见过的编程任务上评估时,Cobalt 仍保持优势,表明该 bandit 形式捕获了训练集之外的有用决策模式。
  • 奖励作弊降低:使用扰动轨迹训练的模型在刻意构造的错误提示上出现的虚假高奖励下降约 15 %,验证了缓解效果。

实际影响

  • 降低计算预算:由于每次更新都是单步决策,开发者可以在不需要全轨迹强化学习那种巨量 GPU 时间的情况下,对代码生成助手的 LLM 进行微调。
  • 即插即用的流水线:现有的代码补全服务只需提供部分用户代码上下文,并使用它们已经用于评估的相同测试套件反馈,即可集成 Cobalt。
  • 更安全的助手:奖励作弊分析和缓解策略帮助防止模型“玩弄”单元测试(例如,输出通过表面检查的虚假代码),从而提供更可靠的建议。
  • 可扩展到其他迭代任务:任何涉及一系列决策且结果可评估的任务——对话规划、API 调用合成或 UI 布局生成——都可以采用相同的上下文赌博机设置。

限制与未来工作

  • 依赖强大的参考语言模型:离线轨迹的质量取决于初始生成器;较弱的参考模型可能限制 Cobalt 的上限。
  • 二元奖励粒度:仅使用通过/失败会丢弃细微信息(例如部分正确性、运行时效率),这些信息本可以进一步指导学习。
  • 向更大模型的可扩展性:实验聚焦于 80 亿参数模型;尚不清楚 Cobalt 在 70 B 规模的语言模型上表现如何,因为探索成本会增加。
  • 作者提出的未来方向 包括:
    1. 更丰富的多维奖励信号,
    2. 课程式的部分轨迹选择,
    3. 将该框架应用于非代码领域,如多轮推理或工具使用。

作者

  • Ziru Chen
  • Dongdong Chen
  • Ruinan Jin
  • Yingbin Liang
  • Yujia X
  • Huan Sun

论文信息

  • arXiv ID: 2602.03806v1
  • Categories: cs.LG, cs.AI, cs.CL, cs.SE
  • Published: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »