[Paper] 连接 Online 与 Offline RL：Contextual Bandit 学习用于 Multi-Turn 代码生成

发布: 5天前 (2026年2月4日 GMT+8 02:08)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.03806v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保持原有的格式。）

概述

本文介绍了 Cobalt，一种新的学习框架，它将在线和离线强化学习（RL）的优势相结合，用于大语言模型（LLMs）进行多轮代码生成。通过将编码对话的每一轮视为 contextual bandit 问题，Cobalt 在实现在线 RL 性能提升的同时，保持了训练成本和不稳定性的可控。

一步可恢复的MDP公式：表明多轮代码生成可以简化为一系列单步决策，从而实现上下文赌博（contextual bandit）处理。
Cobalt算法：将离线轨迹收集（来自参考LLM）与在线赌博更新相结合，使模型能够从预生成数据和新反馈中学习。
实证提升：在LiveCodeBench上将Pass@1提升至R1‑Distill 8B提升9.0分，Qwen3 8B提升6.2分，超越强大的在线RL基线（GRPO、VeRPO）。
奖励破解分析：识别LLM如何在上下文奖励中投机取巧，并提出一种基于扰动的数据增强方法以抑制此行为。
开源发布：为社区提供代码、数据和可复现脚本。

收集离线轨迹 – 使用强大的参考大语言模型（例如 GPT‑4）在基准问题上生成完整的多轮代码生成会话。
创建上下文提示 – 将每条完整轨迹拆分为部分轨迹；前缀作为上下文（即“状态”），下一轮的代码片段作为目标动作。
在线上下文赌博学习 – 在训练期间，目标 LLM 接收部分提示，并必须在一步内生成下一行代码。模型根据单元测试执行结果获得二元的“通过/失败”信号作为奖励（与 Pass@k 使用的度量相同）。
策略更新 – 使用奖励计算赌博式梯度（例如带基线的 REINFORCE），从而更新 LLM 的参数。由于每次更新仅涉及一步，方差低，训练过程稳定。
缓解奖励作弊 – 作者向训练池中注入扰动轨迹（例如打乱或部分损坏的代码），迫使模型学习到表面技巧并不能获得奖励。

Model (8B)	基线 Pass@1	Cobalt (+Δ)	最佳在线 RL (GRPO/VeRPO)
R1‑Distill	38.4	47.4 (+9.0)	42.1
Qwen3	31.2	37.4 (+6.2)	34.0