[Paper] Iterative PPO를 활용한 다중 턴 대화 결과 지향 LLM 정렬
Source: arXiv
Abstract
대규모 언어 모델(LLM)을 다중 턴 대화 결과에 최적화하는 것은 특히 AI 마케팅이나 메시징 플랫폼을 통한 거래를 중개하는 영업 에이전트와 같은 목표 지향적 환경에서 큰 도전 과제이다. 이 어려움은 희소하고 장기적인 보상 구조와 응답 수준의 계획과 토큰 수준의 생성 사이의 불일치에서 비롯된다.
본 기술 노트에서는 다중 턴 강화학습(RL) 문제를 일련의 단일 턴 RLHF 스타일 문제로 공식적으로 축소하는 방법을 제안한다. 이는 학습된 다중 턴 Q‑함수를 단일 턴 문제의 보상 모델로 설정함으로써 달성된다. 우리는 핵심 통찰을 보여주고 증명한다: 표준 토큰‑레벨 PPO로 이 단일 턴 RL 문제를 해결하는 것은 다중 턴 문제 내에서 정책 개선 단계와 동등하다.
이 통찰은 Iterative PPO라는 배치 온라인 정책 반복 알고리즘을 자연스럽게 이끌어낸다. Iterative PPO는 기록된 대화 궤적에서 Q‑함수를 학습하고 정책을 개선하는 과정을 번갈아 수행한다. 주요 실용적 장점은 Iterative PPO가 안정적인 기존 단일 턴 RLHF 도구를 직접 활용하므로 구현이 간단하다는 점이다. 우리의 방법은 완전 온라인 접근법과 완전 오프라인 접근법 사이의 중간 지점을 차지하며, 온라인 업데이트의 적응성을 유지하면서 오프라인 학습의 안정성 이점을 얻는다.