1周前 · ai [Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果 优化大型语言模型(LLMs)以实现多轮对话结果仍然是一个重大挑战,尤其是在像 AI mar... 这样的目标导向设置中。