[논문] 밀도 전송을 활용한 흐름 매칭 정책 강화 학습
개요
우리는 연속 제어 문제에서 flow‑matching 정책을 미세조정하기 위한 온라인 강화학습(RL) 알고리즘을 제시한다. 우리의 핵심 통찰은 RL 기반 정책 개선을 보상값이 높은 영역으로 행동 밀도를 이동시키는 전송으로 바라보는 것이며, 이는 flow‑matching 모델의 전송 공식과 자연스럽게 일치한다. 기존 방법들은 현재 정책 분포 혹은 최적 정책 분포를 근사하거나 증류(distillation)에 의존하는데, 이는 편향된 그래디언트를 초래하거나 다중모드 모델링 능력을 희생한다. 이에 반해, 우리는 RLDT(Reinforcement Learning with Density Transport)라 명명한 접근법을 제안한다. RLDT는 Stein Variational Gradient Descent(SVGD)를 이용해 최대 엔트로피 RL 목표로부터 전송 필드를 구성하고, 사전 학습된 flow‑matching 정책을 이 필드에 맞추어 미세조정한다. 이 정렬 목표를 사용한 학습은 비단순하다. flow‑matching 정책은 다단계 과정으로 행동을 생성하므로 직접적인 그래디언트 기반 최적화가 어렵다. 이 문제를 해결하고 학습을 안정화하기 위해, 우리는 중간 디노이징 단계에서 기대 목표 추정(expected‑target estimation)을 통해 정책 행동을 근사한다. 이를 통해 전송 필드 업데이트가 시간에 대한 불안정한 역전파 없이 네트워크 파라미터로 전파될 수 있다. 실험 결과, RLDT는 보상 품질과 수렴 속도 면에서 경쟁적인 베이스라인을 능가함을 보여준다. 이 성능은 밀집 보상과 희소 보상 모두를 포함하는 다양한 연속 제어 과제, 그리고 상태 기반·시각 기반 장기 로봇 조작 작업 전반에 걸쳐 일관된다. 프로젝트 웹페이지: \href{https://rpfey.github.io/rldt/}{https://rpfey.github.io/rldt/}.
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.LG
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전에 기여한다.
저자
- Boshu Lei
- Kostas Daniilidis
- Antonio Loquercio
논문 정보
- arXiv ID: 2606.08602v1
- 분류: cs.LG, cs.AI
- 출판일: 2026년 6월 7일
- PDF: PDF 다운로드