[Paper] SOLE‑R1: Video‑Language Reasoning을 On‑Robot Reinforcement Learning의 유일한 보상으로
Source: arXiv - 2603.28730v1
Overview
이 논문은 SOLE‑R1이라는 비디오‑언어 추론 모델을 소개합니다. 이 모델은 로봇이 강화 학습(RL)을 통해 새로운 작업을 학습할 때 유일한 보상 원천으로 작동할 수 있습니다. 로봇이 자신의 행동을 담은 원시 비디오를 관찰하고 자연어 목표를 해석함으로써, SOLE‑R1은 밀도 높은 단계별 진행 신호를 생성하여 로봇이 성공하도록 안내합니다—핸드‑크래프트된 보상 함수, 시연, 혹은 작업‑특정 튜닝 없이도 가능합니다.
핵심 기여
- Sole‑Reward RL: 단일 학습 모델이 전통적인 보상 설계, 성공 탐지기, 시연을 대체하여 로봇에서 RL을 수행할 수 있음을 보여준다.
- Spatiotemporal Chain‑of‑Thought (CoT) Reasoning: 목표에 대한 “무슨 일이 일었는지”와 “얼마나 진행했는지”를 명시적으로 추적하는 타임스텝별 추론을 도입하여 조밀한 진행 추정치를 생성한다.
- Large‑Scale Synthetic Training Pipeline: 시공간적으로 근거가 있는 CoT 트레이스와 짝을 이룬 비디오 궤적의 방대한 데이터셋을 구축하여 공간, 시간, 언어 감독을 결합한다.
- Hybrid Supervised + RL Fine‑Tuning: 합성 데이터에 대한 감독 미세조정을 통해 SOLE‑R1을 학습한 뒤, 검증 가능한(실제) 보상에 대한 RL을 사용해 정제함으로써 견고성을 향상시킨다.
- Zero‑Shot Generalization: 네 개의 시뮬레이터와 실제 로봇에서 이전에 보지 못한 24개의 조작 작업에 모델을 검증하여 최신 비전‑언어 보상 모델(e.g., GPT‑5, Gemini‑3‑Pro)보다 우수한 성능을 보인다.
- Reward‑Hacking Resistance: SOLE‑R1의 추론이 보상 신호를 “속이려”는 정책에 훨씬 덜 취약함을 보여준다.
Methodology
-
Data Generation
- 절차적 파이프라인을 통해 로봇 행동(예: pick‑and‑place, 서랍 열기)의 짧은 비디오 클립을 수백만 개 생성합니다.
- 각 클립마다 자연어 목표가 샘플링됩니다(예: “빨간 블록을 파란 플랫폼 위에 놓아라”).
- chain‑of‑thought 주석이 자동으로 합성됩니다: 로봇이 보는 것과 각 단계가 목표에 어떻게 다가가는지를 단계별 텍스트로 설명합니다.
-
Model Architecture
- Vision Backbone: 다중 프레임 트랜스포머가 원시 RGB 프레임을 처리하여 공간 레이아웃과 움직임을 포착합니다.
- Language Encoder: 트랜스포머가 목표 문장을 인코딩합니다.
- Cross‑Modal Fusion: 두 스트림을 병합하고 디코더가 각 타임스텝마다 progress score (0–1)와 다음 CoT 문장을 예측합니다.
-
Training Regime
- Supervised Phase: 모델은 생성된 데이터셋에서 합성된 CoT와 실제 진행값을 예측하도록 학습합니다.
- RL Fine‑Tuning: 실제 보상이 알려진 소규모 환경을 이용해, 모델이 예측한 진행과 실제 작업 성공 간의 상관관계를 최대화하도록 추가로 정제합니다. 이는 “올바르게 보상을 학습”하는 과정입니다.
-
On‑Robot RL Loop
- 로봇은 무작위 정책으로 시작합니다.
- 각 단계에서 현재 비디오 버퍼와 목표를 SOLE‑R1에 입력하면, 밀집 보상이 반환됩니다.
- 오프‑더‑쉘프 RL 알고리즘(예: PPO)이 이 보상을 사용해 정책을 업데이트하고, 작업이 해결될 때까지 반복합니다.
Results & Findings
| 환경 | # 미보인 작업 | 성공률 (SOLE‑R1) | 최고 베이스라인* |
|---|---|---|---|
| Sim‑PickPlace | 8 | 92 % | 58 % (GPT‑5) |
| Sim‑Drawer | 6 | 88 % | 45 % (Gemini‑3‑Pro) |
| Sim‑Stacking | 5 | 85 % | 49 % (GPT‑5) |
| Sim‑ToolUse | 5 | 81 % | 44 % (Gemini‑3‑Pro) |
| Real‑Robot (UR5) | 1 | 78 % (after 30 min) | 30 % (hand‑crafted reward) |
*베이스라인은 동일한 RL 알고리즘을 사용하지만 최종 프레임이나 단일 캡션만을 평가하는 대형 언어 모델로부터 보상을 받습니다.
- Dense vs. Sparse Rewards: SOLE‑R1의 타임스텝별 진행 신호는 희소한 성공/실패 보상에 비해 학습 속도를 3–5배 가속합니다.
- Robustness to Reward Hacking: 로봇이 시각 분류기를 속이기 위해 카메라를 “흔들어” 보상을 조작하려는 적대적 테스트에서, SOLE‑R1의 추론이 악용을 방지하여 성공률을 안정적으로 유지했습니다.
- Zero‑Shot Transfer: 시뮬레이션에서 실제 로봇으로 전환할 때 추가적인 미세 조정이 필요하지 않았으며, 모델은 비디오‑언어 사전학습만으로 일반화되었습니다.
Practical Implications
- Simplified Robot Deployment: 엔지니어는 작업을 일상적인 영어로 지정하고 로봇이 실시간으로 학습하도록 할 수 있어, 맞춤형 보상 설계나 시연 수집이 필요하지 않다.
- Rapid Prototyping: 스타트업 연구실은 목표 문장을 교체함으로써 새로운 조작 기술을 반복 개발할 수 있어, 개발 주기를 크게 단축한다.
- Safety & Reliability: 보상이 진행 방식을 검증하는 추론 과정에서 도출되기 때문에, 정책이 순진한 보상을 최대화하는 위험한 지름길을 찾아내는 가능성이 낮아진다.
- Cross‑Domain Reuse: 비디오 피드만 제공되면 동일한 SOLE‑R1 모델을 다양한 로봇 플랫폼(팔, 모바일 베이스) 및 환경에 배포할 수 있다.
- Foundation for Human‑In‑the‑Loop RL: 조밀한 진행 추정치를 운영자가 시각화할 수 있어, 모델을 재학습하지 않고도 빠른 디버깅이나 교정 피드백이 가능하다.
제한 사항 및 향후 작업
- 합성 데이터 격차: 비록 합성 파이프라인이 크지만, 여전히 가장자리 사례 동역학(예: 변형 가능한 객체, 극단적인 조명)을 놓칠 수 있어 특정 실제 환경에서 성능이 저하될 수 있습니다.
- 계산 오버헤드: 로봇에서 실시간으로 다중 프레임 트랜스포머를 실행하려면 GPU급 프로세서가 필요하며, 이는 저비용 플랫폼에 부담이 될 수 있습니다.
- 목표 모호성: 모델은 단일하고 명확히 정의된 자연어 목표를 가정합니다; 다단계 또는 부분적으로 정의된 목표를 처리하는 것은 아직 해결되지 않은 과제입니다.
- RL 미세조정의 확장성: 현재 RL 정제 단계는 검증된 환경의 소규모 집합을 사용합니다; 수천 개 작업으로 확장하면서 수동 라벨링 없이 진행하는 것이 향후 연구 방향입니다.
전반적으로, SOLE‑R1은 비디오‑언어 추론에 의해 구동되는 “보상‑무료” 로봇 학습을 위한 유망한 경로를 열지만, 시뮬레이션‑실제 격차를 메우고, 계산 요구량을 줄이며, 처리할 수 있는 작업 범위를 확대하기 위한 추가 연구가 필요합니다.
저자
- Philip Schroeder
- Thomas Weng
- Karl Schmeckpeper
- Eric Rosen
- Stephen Hart
- Ondrej Biza
논문 정보
- arXiv ID: 2603.28730v1
- 카테고리: cs.RO, cs.CL, cs.CV
- 출판일: 2026년 3월 30일
- PDF: PDF 다운로드