[Paper] RREDCoT: 세그먼트 수준 보상 재분배 for Reasoning Models

발행: 6일 전 (2026년 6월 5일 AM 02:56 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06475v1

Overview

최근 추론 언어 모델의 발전은 강화학습(RL) 파인튜닝에 의해 주도되고 있습니다. 대부분은 Group Relative Policy Optimization (GRPO) 알고리즘이나 그 변형을 사용해 모델이 Chain-of-Thought (CoT) 추적을 생성하도록 유도합니다. 최종 답변은 CoT 추적이 완료된 후에만 검증될 수 있으며, 보상도 그때 할당되기 때문에 지연 보상 문제로 간주됩니다. GRPO와 그 변형은 표준 RL에서 Monte Carlo 방법에 해당하는데, 이는 높은 분산을 겪는 것으로 알려져 있습니다. 이러한 문제에 대한 한 가지 해결책은 보상 재분배를 통한 credit assignment이며, 이는 바람직한 해결책에 도달하는 데 중요한 CoT 추적의 구간에 더 높은 보상을 할당함으로써 강조합니다.

Monte Carlo 샘플링은 중간 상태 값에 대한 편향되지 않은 추정치를 제공할 수 있지만, 계산 오버헤드가 커서 긴 컨텍스트에서 높은 granularity로 훈련 시 credit assignment에 적합하지 않습니다. 우리는 RREDCoT(Reward REDistribution for Chain of Thoughts)를 도입합니다. RREDCoT는 추가 생성 없이 모델 자체를 이용해 최적 보상 재분배를 근사합니다. 우리는 MC 샘플링 및 여러 attribution 방법과 비교했을 때 우리 방법의 장점을 조사합니다. 또한 CoT 추적의 세분화와 상태 값 추정 등 재분배 구성과 관련된 여러 측면을 분석합니다.

Key Contributions

cs.LG
cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.LG 분야의 발전에 기여합니다.

Authors

Mykyta Ielanskyi
Kajetan Schweighofer
Lukas Aichberger
Sepp Hochreiter

Paper Information

arXiv ID: 2606.06475v1
Categories: cs.LG, cs.AI
Published: June 4, 2026
PDF: Download PDF

[Paper] RREDCoT: 세그먼트 수준 보상 재분배 for Reasoning Models

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법