[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입
개요
Human-in-the-loop 강화학습(HiL‑RL)은 실제 로봇 조작에 효과적인 패러다임으로 떠오르며, 인간의 안내를 통해 온라인 정책 개선을 가능하게 한다. 그러나 현재 HiL‑RL 프레임워크는 여전히 개입에 많이 의존해, 비생산적인 탐색에서 정책을 전환시키기 위해 빈번한 인간 수정에 의존한다. 이는 높은 인건비를 초래하고 실제 확장성을 제한한다. 이를 해결하기 위해 우리는 UniIntervene을 제안한다. UniIntervene은 비생산적인 탐색을 감지하고 정책을 고가치 상태로 자율적으로 회복시키는 에이전트형 개입 모델로, 인간 운영자의 대부분의 개입을 대신한다. 구체적으로 UniIntervene은 먼저 미래 조건부 행동‑가치 추정을 수행해 현재 행동의 잠재적 결과를 예측하고 그에 따른 가치를 평가한다. 이는 보다 안정적인 진행 신호를 제공한다. 이를 기반으로 시간적 가치‑위험 비평가가 최근 가치 변화를 집계하고, 추정 가치가 지속적으로 정체되거나 감소할 때 개입을 트리거한다. 개입이 필요할 경우 UniIntervene은 과거 개입 에피소드의 메모리에서 고가치 회복 목표를 찾아내고, 목표 조건부 회복 정책을 통해 실행 가능한 교정 행동을 생성한다. 이렇게 UniIntervene은 인간의 수동적 수정에서 가치 인식 회복 프로세스로 개입을 전환시켜, 효율적인 실제 RL을 가능하게 한다. 다양한 실제 조작 과제에 대한 광범위한 실험 결과, UniIntervene은 최첨단 HiL‑RL 베이스라인 대비 평균 성공률을 8.6% 향상시키면서 인간 개입을 57% 감소시켰다.
핵심 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.RO
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.RO 분야의 발전에 기여한다.
저자
- Haoyuan Deng
- Yitong Gao
- Yudong Lin
- Haichao Liu
- Zhenyu Wu
- Ziwei Wang
논문 정보
- arXiv ID: 2606.12372v1
- 분류: cs.RO, cs.LG
- 발표일: 2026년 6월 10일
- PDF: PDF 다운로드