[Paper] Pareto Q-Learning with Reward Machines

발행: (2026년 6월 17일 PM 11:44 GMT+9)
2 분 소요
원문: arXiv

출처: arXiv - 2606.19134v1

개요

우리는 보상 구조가 보상 머신(RM) 집합에 의해 지정되는 작업을 위한 다중 목표 강화 학습 알고리즘(Pareto Q-Learning with Reward Machines, PQLRM)을 제시합니다. PQLRM은 벡터값 Q-예측 집합을 유지하여 파레토 프론트를 근사하는 파레토 Q-러닝(PQL)과, 보상 신호의 인수된 자동자 구조를 활용하는 Q-Learning with Reward Machines(QRM)의 향상 기능을 결합합니다. 이를 통해 비마르코비안(비멀코비안) 보상으로 인코딩된 환경에서도 샘플 효율성을 유지하는 다중 정책 알고리즘이 생성됩니다. 실험 결과, PQLRM은 교차 곱 MDP에 적용된 순진한 PQL 베이스라인보다 더 빠르게 수렴하고, QRM이 수행할 수 없는 파레토 최적 정책을 합성할 수 있음을 보여줍니다.

주요 공헌

본 논문은 다음과 같은 분야에서 연구를 제시합니다:

  • cs.LG
  • cs.AI

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 의미

이 연구는 cs.LG의 발전을 기여합니다.

저자

  • Arnaud Lequen
  • Clément Legrand-Lixon
  • Léo Saulières

논문 정보

  • arXiv ID: 2606.19134v1
  • 분야: cs.LG, cs.AI
  • 게시일: 2026년 6월 17일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »