multiturn agents | EUNO.NEWS

5天前 · ai

使用强化学习定制多轮 AI 代理

利用现有的环境模拟器和基于可验证真实数据的奖励函数，即使在小模型和小规模训练的情况下，也能提升任务成功率。

#reinforcement learning #multiturn agents #AI agents #environment simulators #reward functions #training data efficiency #Amazon Science