[Paper] SOLE‑R1: Video‑Language Reasoning을 On‑Robot Reinforcement Learning의 유일한 보상으로

발행: 1일 전 (2026년 3월 31일 AM 02:46 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.28730v1

Overview

이 논문은 SOLE‑R1이라는 비디오‑언어 추론 모델을 소개합니다. 이 모델은 로봇이 강화 학습(RL)을 통해 새로운 작업을 학습할 때 유일한 보상 원천으로 작동할 수 있습니다. 로봇이 자신의 행동을 담은 원시 비디오를 관찰하고 자연어 목표를 해석함으로써, SOLE‑R1은 밀도 높은 단계별 진행 신호를 생성하여 로봇이 성공하도록 안내합니다—핸드‑크래프트된 보상 함수, 시연, 혹은 작업‑특정 튜닝 없이도 가능합니다.

핵심 기여

Sole‑Reward RL: 단일 학습 모델이 전통적인 보상 설계, 성공 탐지기, 시연을 대체하여 로봇에서 RL을 수행할 수 있음을 보여준다.
Spatiotemporal Chain‑of‑Thought (CoT) Reasoning: 목표에 대한 “무슨 일이 일었는지”와 “얼마나 진행했는지”를 명시적으로 추적하는 타임스텝별 추론을 도입하여 조밀한 진행 추정치를 생성한다.
Large‑Scale Synthetic Training Pipeline: 시공간적으로 근거가 있는 CoT 트레이스와 짝을 이룬 비디오 궤적의 방대한 데이터셋을 구축하여 공간, 시간, 언어 감독을 결합한다.
Hybrid Supervised + RL Fine‑Tuning: 합성 데이터에 대한 감독 미세조정을 통해 SOLE‑R1을 학습한 뒤, 검증 가능한(실제) 보상에 대한 RL을 사용해 정제함으로써 견고성을 향상시킨다.
Zero‑Shot Generalization: 네 개의 시뮬레이터와 실제 로봇에서 이전에 보지 못한 24개의 조작 작업에 모델을 검증하여 최신 비전‑언어 보상 모델(e.g., GPT‑5, Gemini‑3‑Pro)보다 우수한 성능을 보인다.
Reward‑Hacking Resistance: SOLE‑R1의 추론이 보상 신호를 “속이려”는 정책에 훨씬 덜 취약함을 보여준다.

Methodology

Data Generation
- 절차적 파이프라인을 통해 로봇 행동(예: pick‑and‑place, 서랍 열기)의 짧은 비디오 클립을 수백만 개 생성합니다.
- 각 클립마다 자연어 목표가 샘플링됩니다(예: “빨간 블록을 파란 플랫폼 위에 놓아라”).
- chain‑of‑thought 주석이 자동으로 합성됩니다: 로봇이 보는 것과 각 단계가 목표에 어떻게 다가가는지를 단계별 텍스트로 설명합니다.
Model Architecture
- Vision Backbone: 다중 프레임 트랜스포머가 원시 RGB 프레임을 처리하여 공간 레이아웃과 움직임을 포착합니다.
- Language Encoder: 트랜스포머가 목표 문장을 인코딩합니다.
- Cross‑Modal Fusion: 두 스트림을 병합하고 디코더가 각 타임스텝마다 progress score (0–1)와 다음 CoT 문장을 예측합니다.
Training Regime
- Supervised Phase: 모델은 생성된 데이터셋에서 합성된 CoT와 실제 진행값을 예측하도록 학습합니다.
- RL Fine‑Tuning: 실제 보상이 알려진 소규모 환경을 이용해, 모델이 예측한 진행과 실제 작업 성공 간의 상관관계를 최대화하도록 추가로 정제합니다. 이는 “올바르게 보상을 학습”하는 과정입니다.
On‑Robot RL Loop
- 로봇은 무작위 정책으로 시작합니다.
- 각 단계에서 현재 비디오 버퍼와 목표를 SOLE‑R1에 입력하면, 밀집 보상이 반환됩니다.
- 오프‑더‑쉘프 RL 알고리즘(예: PPO)이 이 보상을 사용해 정책을 업데이트하고, 작업이 해결될 때까지 반복합니다.

Results & Findings

환경	# 미보인 작업	성공률 (SOLE‑R1)	최고 베이스라인*
Sim‑PickPlace	8	92 %	58 % (GPT‑5)
Sim‑Drawer	6	88 %	45 % (Gemini‑3‑Pro)
Sim‑Stacking	5	85 %	49 % (GPT‑5)
Sim‑ToolUse	5	81 %	44 % (Gemini‑3‑Pro)
Real‑Robot (UR5)	1	78 % (after 30 min)	30 % (hand‑crafted reward)

*베이스라인은 동일한 RL 알고리즘을 사용하지만 최종 프레임이나 단일 캡션만을 평가하는 대형 언어 모델로부터 보상을 받습니다.

Dense vs. Sparse Rewards: SOLE‑R1의 타임스텝별 진행 신호는 희소한 성공/실패 보상에 비해 학습 속도를 3–5배 가속합니다.
Robustness to Reward Hacking: 로봇이 시각 분류기를 속이기 위해 카메라를 “흔들어” 보상을 조작하려는 적대적 테스트에서, SOLE‑R1의 추론이 악용을 방지하여 성공률을 안정적으로 유지했습니다.
Zero‑Shot Transfer: 시뮬레이션에서 실제 로봇으로 전환할 때 추가적인 미세 조정이 필요하지 않았으며, 모델은 비디오‑언어 사전학습만으로 일반화되었습니다.

Practical Implications

Simplified Robot Deployment: 엔지니어는 작업을 일상적인 영어로 지정하고 로봇이 실시간으로 학습하도록 할 수 있어, 맞춤형 보상 설계나 시연 수집이 필요하지 않다.
Rapid Prototyping: 스타트업 연구실은 목표 문장을 교체함으로써 새로운 조작 기술을 반복 개발할 수 있어, 개발 주기를 크게 단축한다.
Safety & Reliability: 보상이 진행 방식을 검증하는 추론 과정에서 도출되기 때문에, 정책이 순진한 보상을 최대화하는 위험한 지름길을 찾아내는 가능성이 낮아진다.
Cross‑Domain Reuse: 비디오 피드만 제공되면 동일한 SOLE‑R1 모델을 다양한 로봇 플랫폼(팔, 모바일 베이스) 및 환경에 배포할 수 있다.
Foundation for Human‑In‑the‑Loop RL: 조밀한 진행 추정치를 운영자가 시각화할 수 있어, 모델을 재학습하지 않고도 빠른 디버깅이나 교정 피드백이 가능하다.

제한 사항 및 향후 작업

합성 데이터 격차: 비록 합성 파이프라인이 크지만, 여전히 가장자리 사례 동역학(예: 변형 가능한 객체, 극단적인 조명)을 놓칠 수 있어 특정 실제 환경에서 성능이 저하될 수 있습니다.
계산 오버헤드: 로봇에서 실시간으로 다중 프레임 트랜스포머를 실행하려면 GPU급 프로세서가 필요하며, 이는 저비용 플랫폼에 부담이 될 수 있습니다.
목표 모호성: 모델은 단일하고 명확히 정의된 자연어 목표를 가정합니다; 다단계 또는 부분적으로 정의된 목표를 처리하는 것은 아직 해결되지 않은 과제입니다.
RL 미세조정의 확장성: 현재 RL 정제 단계는 검증된 환경의 소규모 집합을 사용합니다; 수천 개 작업으로 확장하면서 수동 라벨링 없이 진행하는 것이 향후 연구 방향입니다.

전반적으로, SOLE‑R1은 비디오‑언어 추론에 의해 구동되는 “보상‑무료” 로봇 학습을 위한 유망한 경로를 열지만, 시뮬레이션‑실제 격차를 메우고, 계산 요구량을 줄이며, 처리할 수 있는 작업 범위를 확대하기 위한 추가 연구가 필요합니다.

저자

Philip Schroeder
Thomas Weng
Karl Schmeckpeper
Eric Rosen
Stephen Hart
Ondrej Biza

논문 정보

arXiv ID: 2603.28730v1
카테고리: cs.RO, cs.CL, cs.CV
출판일: 2026년 3월 30일
PDF: PDF 다운로드

[Paper] SOLE‑R1: Video‑Language Reasoning을 On‑Robot Reinforcement Learning의 유일한 보상으로

Overview

핵심 기여

Methodology

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] ResAdapt: 효율적인 멀티모달 추론을 위한 적응형 해상도

[Paper] HandX: 양손 동작 및 상호작용 생성 스케일링

[Paper] PoseDreamer: 확장 가능한 포토리얼리스틱 인간 데이터 생성 파이프라인 with Diffusion Models

[Paper] 맥락 공간에서 실시간 반발을 이용한 Diffusion Transformers의 풍부한 다양성