[논문] PAEC: RLVR에서 LLM 추론을 위한 위치 인식 엔트로피 보정

발행: (2026년 6월 7일 PM 06:51 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.08543v1

개요

검증 가능한 보상을 이용한 강화학습(RLVR)은 대형 언어 모델의 추론 능력을 향상시키지만, 정책 엔트로피가 급격히 붕괴되는 현상이 자주 발생합니다. 이는 정책이 좁은 고확률 추론 경로에 조기에 집중되는 현상입니다. 전역 엔트로피 정규화는 탐색을 촉진할 수 있지만, 모든 토큰 위치에 균일하게 엔트로피를 증가시키는 방식은 긴 추론 시퀀스에서는 비효율적입니다. 많은 토큰이 실제 의사결정에 영향을 주지 않기 때문입니다. 우리는 위치 인식 엔트로피 보정(PAEC)이라는 토큰 수준 엔트로피 관리 프레임워크를 제안합니다. 이 프레임워크는 로컬 top‑p 엔트로피와 상위 두 후보 간 경쟁을 이용해 소프트 마스크를 구성하고, 앵커 기반 하한 페널티를 적용해 선택된 위치의 엔트로피 붕괴를 방지합니다. 다섯 개의 수학적 추론 벤치마크에 대한 실험 결과, PAEC가 강력한 RLVR 베이스라인보다 매크로 평균 다수결 성능을 향상시키며, 특히 AIME 스타일 과제에서 뚜렷한 개선을 보였습니다. 우리의 결과는 추론 강화학습에서 엔트로피 관리를 전역적인 무작위성 주입이 아니라, 의사결정에 민감한 위치에 대한 선택적 탐색 할당으로 정의해야 함을 시사합니다.

핵심 기여

이 논문은 다음 분야의 연구를 다룹니다.

  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여합니다.

저자

  • Shumeng Yang
  • Yisu Liu
  • Jiayi Zheng
  • Zhaohui Yang
  • Linjing Li

논문 정보

  • arXiv ID: 2606.08543v1
  • 분류: cs.AI
  • 발표일: 2026년 6월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »