[논문] 강화학습 흐름 정책의 테스트 시 그래디언트 가이드
개요
확산 모델과 흐름 모델과 같은 표현력이 풍부한 연속 제어 정책은 시뮬레이션 및 실제 로봇 제어를 위한 모방 학습 확장의 최신 발전을 이끄는 핵심 요소입니다. 이러한 정책은 감독된 모방 학습 환경에서는 안정적으로 확장될 수 있는 것으로 알려져 있지만, 정책 개선을 위해 강화 학습(RL) 파이프라인에 통합하는 것은 더 어려운 과제로 드러났습니다. 일반적으로 특수한 학습 목표를 설정하거나 디노이징 과정을 역전파해야 하는데, 이는 안정성 문제를 일으키고 확장성을 저해합니다. 본 논문에서는 안정적인 감독 학습을 그대로 유지하면서 테스트 시점에만 간단한 정책 개선 방식을 적용하는 것이 이러한 문제를 회피할 수 있는 경쟁력 있는 대안이 될 수 있는지를 탐구합니다. 이를 위해 QGF(Q‑Guided Flow)라는 RL 알고리즘을 제안합니다. QGF는 테스트 시점에만 정책 최적화를 수행합니다. 구체적으로, 표준 행동 복제 목표를 사용해 레퍼런스 흐름 정책을 사전 학습하고, 가치 함수 비평가도 함께 학습한 뒤, 테스트 시점에 가치 그래디언트를 이용해 레퍼런스 정책을 유도해 추가 학습 없이 더 높은 가치를 갖는 행동을 생성합니다. 실험 결과, QGF는 고차원 행동 공간을 갖는 단일 과제 및 목표 조건 오프라인 RL 벤치마크에서 기존 테스트 시점 RL 방법들을 능가했으며, 학습 시점 최첨단 알고리즘과도 경쟁하면서 실행 비용은 크게 낮추었습니다. 또한 배우‑비평가 훈련의 불안정을 피함으로써 모델 규모에 대한 확장성이 우수해, 표현력이 풍부한 정책을 갖는 실용적이고 효과적인 대안 RL 알고리즘으로서의 가능성을 보여줍니다.
핵심 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Zhiyuan Zhou
- Andy Peng
- Charles Xu
- Qiyang Li
- Tobias Springenberg
- Kevin Frans
- Sergey Levine
논문 정보
- arXiv ID: 2606.11087v1
- 분류: cs.LG, cs.AI
- 발표일: 2026년 6월 9일
- PDF: Download PDF