1일 전 · ai [Paper] ECHO-2: 비용 효율적인 강화 학습을 위한 대규모 분산 롤아웃 프레임워크 강화 학습(RL)은 사후 훈련된 대형 언어 모델(LLM)의 중요한 단계로, 롤아웃 생성과 보상 사이의 반복적인 상호작용을 포함합니다.