1天前 · ai [Paper] ECHO-2:大规模分布式 Rollout 框架用于成本高效的强化学习 强化学习(RL)是后训练大型语言模型(LLMs)的关键阶段,涉及在 rollout 生成、reward …之间的反复交互。