[Paper] Pareto Q-Learning with Reward Machines

발행: 1일 전 (2026년 6월 17일 PM 11:44 GMT+9)

2 분 소요

원문: arXiv

출처: arXiv - 2606.19134v1

개요

우리는 보상 구조가 보상 머신(RM) 집합에 의해 지정되는 작업을 위한 다중 목표 강화 학습 알고리즘(Pareto Q-Learning with Reward Machines, PQLRM)을 제시합니다. PQLRM은 벡터값 Q-예측 집합을 유지하여 파레토 프론트를 근사하는 파레토 Q-러닝(PQL)과, 보상 신호의 인수된 자동자 구조를 활용하는 Q-Learning with Reward Machines(QRM)의 향상 기능을 결합합니다. 이를 통해 비마르코비안(비멀코비안) 보상으로 인코딩된 환경에서도 샘플 효율성을 유지하는 다중 정책 알고리즘이 생성됩니다. 실험 결과, PQLRM은 교차 곱 MDP에 적용된 순진한 PQL 베이스라인보다 더 빠르게 수렴하고, QRM이 수행할 수 없는 파레토 최적 정책을 합성할 수 있음을 보여줍니다.

주요 공헌

본 논문은 다음과 같은 분야에서 연구를 제시합니다:

cs.LG
cs.AI

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 의미

이 연구는 cs.LG의 발전을 기여합니다.

저자

Arnaud Lequen
Clément Legrand-Lixon
Léo Saulières

논문 정보

arXiv ID: 2606.19134v1
분야: cs.LG, cs.AI
게시일: 2026년 6월 17일
PDF: PDF 다운로드

[Paper] Pareto Q-Learning with Reward Machines

개요

주요 공헌

방법론

실용적 의미

저자

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성