[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

발행: (2026년 6월 18일 AM 02:54 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.19327v1

개요

추론 언어 모델의 사후 학습은 일반적으로 감독 정제와 검증 가능한 보상 기반 강화 학습을 사용합니다. 정제 작업은 체인‑오브‑사고 주석에 의존하는데, 이를 얻는 데 비용이 많이 들고 자체적으로도 노이즈가 많거나 불완전하거나 부분적으로 잘못될 수 있습니다. 최종 솔루션이 정답이라도, 완벽하지 않은 근거는 학습을 방해할 수 있습니다. 반면, 검증 가능한 보상을 이용한 강화 학습은 일반적으로 평가 피드백을 스칼라 신호로 압축하여 응답의 어떤 측면을 개선해야 하는지 명확히 하지 못합니다. 우리는 \textbf{Rubric-Conditioned Self-Distillation}이라는 프레임워크를 제안합니다. 이 프레임워크는 평가가를 구조화된 미세한 피드백으로 활용해 온‑폴리시 자체 정제를 수행합니다. 본 방법은 교사 모델을 기준 수준 평가가를 조건으로 삼아 학생이 샘플링한 자체 트래젝터리에서 토큰 수준의 지침을 제공합니다. 이 설계는 단일 참고 근거만을 감독 목표로만 다루는 것을 피합니다. 대신 평가가를 특정 수준을 만족시켜야 한다는 요구사항을 제시함으로써, 스칼라 보상 최적화보다 추론 과정에 대한 보다 미세한 크레딧 할당이 가능해집니다. 우리는 이 프레임워크를 두 단계 파이프라인을 통해 구현합니다. 첫 번째 단계에서는 작업별 평가를 생성하는 모델을 학습하고, 두 번째 단계에서는 평가가를 활용한 추론자를 훈련시킵니다. 다양한 과학 추론 벤치마크에서 평가하고, 결과는 평가가를 토큰 수준의 지침으로 효과적으로 전환하여 평균적으로 GRPO보다 1.0점, OPSD보다 0.9점을 초과함을 보여줍니다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.AI
  • cs.CL

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 의미

본 연구는 cs.AI의 발전에 기여합니다.

저자

  • Siyi Gu
  • Jialin Chen
  • Sophia Zhou
  • Arman Cohan
  • Rex Ying

논문 정보

  • arXiv ID: 2606.19327v1
  • 분야: cs.AI, cs.CL
  • 발행일: 2026년 6월 17일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »