PPO | EUNO.NEWS

1个月前 · ai

[Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果

优化大型语言模型（LLMs）以实现多轮对话结果仍然是一个重大挑战，尤其是在像 AI mar... 这样的目标导向设置中。

#LLM #reinforcement learning #PPO #RLHF #goal-oriented dialogue