[Paper] RREDCoT: 세그먼트 수준 보상 재분배 for Reasoning Models
Source: arXiv - 2606.06475v1
Overview
최근 추론 언어 모델의 발전은 강화학습(RL) 파인튜닝에 의해 주도되고 있습니다. 대부분은 Group Relative Policy Optimization (GRPO) 알고리즘이나 그 변형을 사용해 모델이 Chain-of-Thought (CoT) 추적을 생성하도록 유도합니다. 최종 답변은 CoT 추적이 완료된 후에만 검증될 수 있으며, 보상도 그때 할당되기 때문에 지연 보상 문제로 간주됩니다. GRPO와 그 변형은 표준 RL에서 Monte Carlo 방법에 해당하는데, 이는 높은 분산을 겪는 것으로 알려져 있습니다. 이러한 문제에 대한 한 가지 해결책은 보상 재분배를 통한 credit assignment이며, 이는 바람직한 해결책에 도달하는 데 중요한 CoT 추적의 구간에 더 높은 보상을 할당함으로써 강조합니다.
Monte Carlo 샘플링은 중간 상태 값에 대한 편향되지 않은 추정치를 제공할 수 있지만, 계산 오버헤드가 커서 긴 컨텍스트에서 높은 granularity로 훈련 시 credit assignment에 적합하지 않습니다. 우리는 RREDCoT(Reward REDistribution for Chain of Thoughts)를 도입합니다. RREDCoT는 추가 생성 없이 모델 자체를 이용해 최적 보상 재분배를 근사합니다. 우리는 MC 샘플링 및 여러 attribution 방법과 비교했을 때 우리 방법의 장점을 조사합니다. 또한 CoT 추적의 세분화와 상태 값 추정 등 재분배 구성과 관련된 여러 측면을 분석합니다.
Key Contributions
- cs.LG
- cs.AI
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.LG 분야의 발전에 기여합니다.
Authors
- Mykyta Ielanskyi
- Kajetan Schweighofer
- Lukas Aichberger
- Sepp Hochreiter
Paper Information
- arXiv ID: 2606.06475v1
- Categories: cs.LG, cs.AI
- Published: June 4, 2026
- PDF: Download PDF