[논문] 에이전시 전이 모델프리 정책 강화 기법

발행: (2026년 6월 9일 AM 02:59 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.09825v1

개요

강화학습(RL) 정책을 처음부터 학습하는 것은 비용이 많이 듭니다. 이는 보상 및 환경 설계, 광범위한 튜닝, 그리고 막대한 계산 자원을 필요로 하기 때문입니다. 그러나 많은 제어 문제에서는 이미 기능은 하지만 최적은 아닌 기준 정책(baseline)이 존재합니다. 본 논문은 이러한 기준 정책을 RL 학습 과정에 삽입하는 방법을 제안합니다. 이 방법은 처음부터 학습하는 방식에 비해 학습 효율을 향상시키면서, 기준 정책보다 우수한 학습 정책을 만들어냅니다. 각 단계에서 본 방법은 기준 정책과 학습 가능한 정책 사이에서 중재(arbitration) 역할을 수행합니다. 초기에는 기준 정책에 크게 의존하고, 점차 학습 정책으로 권한을 이전합니다. 학습이 끝날 무렵, 학습 정책은 별도의 신경망으로서 기준 정책 없이도 동작합니다. 논문은 기준 정책이 “기능한다”는 의미를 형식화합니다: 이 정책 하에서 에이전트는 목표 집합에 도달하고 높은 확률로 그곳에 머무릅니다. 제안된 중재 메커니즘은 학습 중 이 특성을 활용하도록 설계되어, 학습 초반부터 높은 목표 달성률을 보장합니다. 이론적 분석을 통해 가정 하에서 이러한 행동을 정형적으로 해석하고, 최종적으로 기준 정책이 없는 상황에서도 학습 정책의 목표 달성 확률에 대한 명시적 하한을 도출합니다. 연속 제어 벤치마크에 대한 실험 결과, 제안된 방법은 경쟁 접근법과 동등하거나 더 높은 수익을 달성하면서, 비교된 모든 방법 중 학습 전 과정—특히 최종 단계에서 기준 정책 없이 동작하는 단계—에서 가장 높은 목표 달성률을 유지함을 보여줍니다.

주요 기여

본 논문은 다음 분야의 연구를 다룹니다:

  • cs.LG
  • cs.AI
  • eess.SY
  • math.OC

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Anton Bolychev
  • Georgiy Malaniya
  • Sinan Ibrahim
  • Pavel Osinenko

논문 정보

  • arXiv ID: 2606.09825v1
  • 분류: cs.LG, cs.AI, eess.SY, math.OC
  • 발표일: 2026년 6월 8일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »