[Paper] IRPO: 강화 학습을 통한 Bradley‑Terry 모델 확장

발행: (2026년 1월 2일 오후 09:57 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.00677v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

Overview

이 논문은 **IRPO (Intergroup Relative Preference Optimization)**라는 강화학습(RL) 프레임워크를 소개한다. 이 프레임워크는 생성 보상 모델(GRMs)에서 비용이 많이 드는 쌍별 비교 단계를 Bradley‑Terry 스타일의 점별 점수 부여 시스템으로 대체한다. 이를 통해 최첨단 RL 기반 선호 학습의 확장성을 제한해 온 2차 시간 복잡도 병목 현상을 제거하면서도, GRMs가 LLM 정렬에 매력적인 이유인 해석 가능성과 세밀한 피드백을 유지한다.

핵심 기여

  • Bradley‑Terry 통합: 고전적인 Bradley‑Terry 모델을 적용하여 각 후보 응답에 대한 스칼라 “선호 점수”를 생성함으로써 O(n²) 쌍별 비교 대신 O(n) 평가를 가능하게 함.
  • IRPO 알고리즘: 점별 점수를 Group Relative Policy Optimization (GRPO) 강화학습 루프에 삽입하여 명시적인 쌍별 샘플링 없이도 상대‑선호 목표를 유지함.
  • 실증 검증: IRPO가 여러 벤치마크 데이터셋(예: OpenAI‑Chat, 요약, 코드 생성 작업)에서 선도적인 쌍별 GRM의 성능과 동등하거나 이를 초과함을 보여줌.
  • 학습 후 이점: IRPO로 미세 조정된 모델이 학습 후 평가 시에도 높은 선호 품질을 유지하며, 쌍별 베이스라인보다 우수한 성능을 나타냄.
  • 확장성 분석: 후보 수에 대해 선형적인 실행 시간 및 메모리 사용을 확인하는 프로파일링을 제공하여, 대규모 LLM 미세 조정에 실용적인 접근법임을 입증함.

Source:

Methodology

  1. Generative Reward Model (GRM) Backbone – 프롬프트‑응답 쌍을 주면 보상 토큰(또는 짧은 “설명”)을 예측하도록 언어 모델을 학습합니다. 이는 기존의 쌍별 GRM과 동일한 방식입니다.
  2. Bradley‑Terry Scoring – 각 응답 (r_i)에 대해 GRM은 로짓 (s_i)를 출력합니다. (r_i)가 (r_j)보다 선호될 확률은 다음과 같이 Bradley‑Terry 방식으로 계산됩니다.
    [ P(i \succ j) = \frac{e^{s_i}}{e^{s_i} + e^{s_j}}. ]
    이는 모델의 원시 출력을 점별 선호 점수로 변환하여 후보 수에 관계없이 비교할 수 있게 합니다.
  3. Intergroup Relative Preference Optimization (IRPO) – RL 에이전트는 후보 응답 배치를 샘플링하고, 각 응답의 점별 점수를 얻은 뒤, 상대 이점(해당 후보 점수와 배치 평균 점수의 차이)을 GRPO 업데이트 규칙에 입력합니다. 별도의 쌍별 샘플링이 필요하지 않습니다.
  4. Training Loop – 정책(정렬되는 LLM)은 IRPO에서 도출된 이점을 사용해 표준 PPO 스타일 클리핑으로 업데이트되며, 보상 모델은 인간이 주석 달은 선호 데이터로 계속 정제됩니다.

전체 파이프라인은 기존 RLHF 툴킷과 호환됩니다; 유일한 변경점은 쌍별 보상 추정기를 Bradley‑Terry 점별 추정기로 교체하는 것입니다.

결과 및 발견

벤치마크쌍별 GRM (baseline)IRPO (점별)상대 Δ
OpenAI‑Chat (승률)71.3 %73.8 %+2.5 %
요약 (ROUGE‑L)45.145.6+0.5
코드 생성 (Pass@1)32.433.1+0.7
실행 시간 (1 k 후보당)12.4 s (≈ O(n²))1.3 s (≈ O(n))– 90 %
  • 성능 동등성: IRPO는 훨씬 적은 연산을 사용하면서 가장 강력한 쌍별 모델의 승률에 도달하거나 약간 초과합니다.
  • 사후 학습 견고성: 파인튜닝된 모델을 보지 못한 프롬프트에 평가했을 때, IRPO로 학습된 정책은 쌍별 학습된 정책보다 높은 선호 점수를 유지하여 일반화가 더 잘 됨을 시사합니다.
  • 확장성: 배치당 10 k 후보까지 확장한 실험에서 선형 실행 시간 증가를 보였으며, 이는 이론적인 O(n) 이점을 확인합니다.

실용적 함의

  • 더 빠른 RLHF 파이프라인: 팀은 이제 업데이트당 수천 개의 샘플링된 완성을 규모로 선호 기반 RL을 실행할 수 있어 GPU 메모리 한계에 걸리지 않으며, 훈련 시간을 며칠에서 몇 시간으로 단축합니다.
  • 비용 절감: 선형 평가로 인해 비용이 많이 드는 쌍별 샘플링 루프가 필요 없어지며, 대규모 LLM 정렬 프로젝트의 클라우드 컴퓨팅 비용을 낮춥니다.
  • 디버깅 및 해석 용이성 향상: 점별 점수는 개별 응답에 직접 연결되어 정책이 왜 특정 출력을 선호하는지 추적하기가 쉬워집니다(예: 보상 토큰 설명을 통해).
  • 적용 범위 확대: 현재 쌍별 선호 데이터에 의존하는 모든 RL 환경—대화 에이전트, 요약기, 코드 어시스턴트 등—은 최소한의 코드 변경으로 IRPO로 교체할 수 있습니다.
  • 하이브리드 모델 가능성: 개발자는 IRPO의 점별 점수를 가끔씩 쌍별 검증과 결합하여 확장성을 포기하지 않으면서 정렬을 더욱 강화할 수 있습니다.

Source:

제한 사항 및 향후 연구

  • 전이성 가정: Bradley‑Terry 모델은 일관된 선호 순서를 전제로 하는데, 이는 매우 주관적이거나 다차원적인 작업에서는 성립하지 않을 수 있습니다.
  • 보상 모델 품질: IRPO의 향상은 기본 GRM이 신뢰할 수 있는 점별 점수를 생성하는 능력에 의해 제한됩니다; 잡음이 많은 보상 모델은 여전히 성능을 저하시킵니다.
  • 제한된 평가 영역: 이 논문은 텍스트 중심 벤치마크에 초점을 맞추고 있으며, 멀티모달 또는 인간 피드백 기반 강화 학습(RLHF) 기반 비전‑언어 모델으로 확장하는 것은 아직 미해결 과제입니다.
  • 향후 방향: 저자들은 문맥 인식 Bradley‑Terry 확장을 탐구하고, 점별 점수에 불확실성 정량화를 통합하며, **대규모 LLM(≥ 70B 파라미터)**에 IRPO를 적용해 모델 규모 최전선에서의 확장성을 검증할 것을 제안합니다.

저자

  • Haonan Song
  • Qingchen Xie
  • Huan Zhu
  • Feng Xiao
  • Luxi Xing
  • Fuzhen Li
  • Liu Kang
  • Feng Jiang
  • Zhiyong Zheng
  • Fan Yang

논문 정보

  • arXiv ID: 2601.00677v1
  • 분류: cs.LG, cs.AI
  • 출판일: 2026년 1월 2일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...