[Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果
发布: (2025年11月27日 GMT+8 02:12)
2 min read
原文: arXiv
Source: arXiv
摘要
在多轮对话场景中优化大语言模型(LLM)的表现仍然是一个重大挑战,尤其是在目标导向的环境下,如通过消息平台促成交易的 AI 营销或销售代理。困难来源于稀疏且长时程的奖励,以及响应层面的规划与 token 级别生成之间的差距。
在本技术说明中,我们提出将多轮强化学习问题形式化地归约为一系列单轮 RLHF 风格的问题。具体做法是将学习得到的多轮 Q 函数设为单轮问题的奖励模型。我们展示并证明了一个关键洞见:使用标准的 token 级别 PPO 解决该单轮 RL 问题等价于在多轮问题中的一次策略改进步骤。
该洞见自然引出了 Iterative PPO,一种批量在线策略迭代算法,它在从记录的对话轨迹中拟合 Q 函数与改进策略之间交替进行。一个重要的实际优势是,Iterative PPO 直接利用稳定、现成的单轮 RLHF 工具,实现起来相对简单。我们的方法位于完全在线和完全离线方法之间的中间地带,既保留了在线更新的适应性,又获得了离线训练的稳定性收益。