[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

발행: 1일 전 (2026년 6월 18일 AM 02:54 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19327v1

개요

추론 언어 모델의 사후 학습은 일반적으로 감독 정제와 검증 가능한 보상 기반 강화 학습을 사용합니다. 정제 작업은 체인‑오브‑사고 주석에 의존하는데, 이를 얻는 데 비용이 많이 들고 자체적으로도 노이즈가 많거나 불완전하거나 부분적으로 잘못될 수 있습니다. 최종 솔루션이 정답이라도, 완벽하지 않은 근거는 학습을 방해할 수 있습니다. 반면, 검증 가능한 보상을 이용한 강화 학습은 일반적으로 평가 피드백을 스칼라 신호로 압축하여 응답의 어떤 측면을 개선해야 하는지 명확히 하지 못합니다. 우리는 \textbf{Rubric-Conditioned Self-Distillation}이라는 프레임워크를 제안합니다. 이 프레임워크는 평가가를 구조화된 미세한 피드백으로 활용해 온‑폴리시 자체 정제를 수행합니다. 본 방법은 교사 모델을 기준 수준 평가가를 조건으로 삼아 학생이 샘플링한 자체 트래젝터리에서 토큰 수준의 지침을 제공합니다. 이 설계는 단일 참고 근거만을 감독 목표로만 다루는 것을 피합니다. 대신 평가가를 특정 수준을 만족시켜야 한다는 요구사항을 제시함으로써, 스칼라 보상 최적화보다 추론 과정에 대한 보다 미세한 크레딧 할당이 가능해집니다. 우리는 이 프레임워크를 두 단계 파이프라인을 통해 구현합니다. 첫 번째 단계에서는 작업별 평가를 생성하는 모델을 학습하고, 두 번째 단계에서는 평가가를 활용한 추론자를 훈련시킵니다. 다양한 과학 추론 벤치마크에서 평가하고, 결과는 평가가를 토큰 수준의 지침으로 효과적으로 전환하여 평균적으로 GRPO보다 1.0점, OPSD보다 0.9점을 초과함을 보여줍니다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

cs.AI
cs.CL

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 의미

본 연구는 cs.AI의 발전에 기여합니다.

저자

Siyi Gu
Jialin Chen
Sophia Zhou
Arman Cohan
Rex Ying

논문 정보

arXiv ID: 2606.19327v1
분야: cs.AI, cs.CL
발행일: 2026년 6월 17일
PDF: PDF 다운로드

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

개요

주요 공헌

방법론

실용적 의미

저자

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 언어 모델은 오라클이 아니라 인터페이스: 소아 맹장을 위한 하이브리드 LLM‑ML 시스템

인간‑AI 공진 역학: 장기 상호작용을 통한 사회적 지능 발생 이론

[Paper] Leadership as Coordination Control: Behavioral Signatures and the Recovery-Advantage Boundary in Multi-Agent LLM Teams