[Paper] Pareto Q-Learning with Reward Machines
개요
우리는 보상 구조가 보상 머신(RM) 집합에 의해 지정되는 작업을 위한 다중 목표 강화 학습 알고리즘(Pareto Q-Learning with Reward Machines, PQLRM)을 제시합니다. PQLRM은 벡터값 Q-예측 집합을 유지하여 파레토 프론트를 근사하는 파레토 Q-러닝(PQL)과, 보상 신호의 인수된 자동자 구조를 활용하는 Q-Learning with Reward Machines(QRM)의 향상 기능을 결합합니다. 이를 통해 비마르코비안(비멀코비안) 보상으로 인코딩된 환경에서도 샘플 효율성을 유지하는 다중 정책 알고리즘이 생성됩니다. 실험 결과, PQLRM은 교차 곱 MDP에 적용된 순진한 PQL 베이스라인보다 더 빠르게 수렴하고, QRM이 수행할 수 없는 파레토 최적 정책을 합성할 수 있음을 보여줍니다.
주요 공헌
본 논문은 다음과 같은 분야에서 연구를 제시합니다:
- cs.LG
- cs.AI
방법론
자세한 방법については 전체 논문을 참고하십시오.
실용적 의미
이 연구는 cs.LG의 발전을 기여합니다.
저자
- Arnaud Lequen
- Clément Legrand-Lixon
- Léo Saulières
논문 정보
- arXiv ID: 2606.19134v1
- 분야: cs.LG, cs.AI
- 게시일: 2026년 6월 17일
- PDF: PDF 다운로드