PPO | EUNO.NEWS

1개월 전 · ai

[Paper] Iterative PPO를 활용한 다중 턴 대화 결과 지향 LLM 정렬

대규모 언어 모델(LLMs)을 다중 턴 대화 결과에 최적화하는 것은 특히 AI 마케팅과 같은 목표 지향적 환경에서 여전히 큰 과제입니다.

#LLM #reinforcement learning #PPO #RLHF #goal-oriented dialogue