[Paper] Iterative PPO를 활용한 다중 턴 대화 결과 지향 LLM 정렬

발행: (2025년 11월 27일 오전 03:12 GMT+9)
3 min read
원문: arXiv

Source: arXiv

Abstract

대규모 언어 모델(LLM)을 다중 턴 대화 결과에 최적화하는 것은 특히 AI 마케팅이나 메시징 플랫폼을 통한 거래를 중개하는 영업 에이전트와 같은 목표 지향적 환경에서 큰 도전 과제이다. 이 어려움은 희소하고 장기적인 보상 구조와 응답 수준의 계획과 토큰 수준의 생성 사이의 불일치에서 비롯된다.

본 기술 노트에서는 다중 턴 강화학습(RL) 문제를 일련의 단일 턴 RLHF 스타일 문제로 공식적으로 축소하는 방법을 제안한다. 이는 학습된 다중 턴 Q‑함수를 단일 턴 문제의 보상 모델로 설정함으로써 달성된다. 우리는 핵심 통찰을 보여주고 증명한다: 표준 토큰‑레벨 PPO로 이 단일 턴 RL 문제를 해결하는 것은 다중 턴 문제 내에서 정책 개선 단계와 동등하다.

이 통찰은 Iterative PPO라는 배치 온라인 정책 반복 알고리즘을 자연스럽게 이끌어낸다. Iterative PPO는 기록된 대화 궤적에서 Q‑함수를 학습하고 정책을 개선하는 과정을 번갈아 수행한다. 주요 실용적 장점은 Iterative PPO가 안정적인 기존 단일 턴 RLHF 도구를 직접 활용하므로 구현이 간단하다는 점이다. 우리의 방법은 완전 온라인 접근법과 완전 오프라인 접근법 사이의 중간 지점을 차지하며, 온라인 업데이트의 적응성을 유지하면서 오프라인 학습의 안정성 이점을 얻는다.

Back to Blog

관련 글

더 보기 »