[Paper] LaST‑R1: VLA 모델을 위한 적응형 물리 잠재 추론을 통한 행동 강화
Source: arXiv - 2604.28192v1
개요
이 논문은 물리적 추론과 행동 생성을 긴밀히 결합한 새로운 Vision‑Language‑Action (VLA) 프레임워크인 LaST‑R1을 소개한다. 잠재적인 “Chain‑of‑Thought”(CoT) 과정을 강화 학습에 삽입함으로써, 저자들은 도전적인 LIBERO 벤치마크에서 거의 완벽에 가까운 성공을 달성했으며 최소한의 감독으로도 강력한 실제 환경 성능을 보여준다.
주요 기여
- Latent‑to‑Action Policy Optimization (LAPO): 잠재적 추론 체인과 하위 모터 행동을 동시에 최적화하는 새로운 강화학습(RL) 알고리즘.
- Adaptive latent CoT mechanism: 정책이 작업 복잡도에 따라 추론 지평선의 길이를 자동으로 조정하도록 하여 과도하거나 부족한 사고를 방지합니다.
- One‑shot supervised warm‑up: 시스템은 학습을 시작하기 위해 단 하나의 시연만 필요하며, 이후 강화학습이 모델을 미세 조정합니다.
- State‑of‑the‑art results: LIBERO 벤치마크에서 평균 성공률 99.8 %를 달성했으며, 실제 작업에서는 워밍업 정책 대비 최대 44 % 향상을 보였습니다.
- Cross‑domain generalization: 시뮬레이션 및 실제 환경의 단일 팔 및 이중 팔 조작 시나리오 모두에서 검증되었습니다.
방법론
- Latent Chain‑of‑Thought (CoT) Encoder – 시각 입력과 언어 지시를 먼저 트랜스포머‑스타일 인코더에 통과시켜 물리적 역학(예: 객체 어포던스, 접촉 힘)의 연속 잠재 표현을 생성합니다.
- Adaptive Reasoning Horizon – 가벼운 컨트롤러가 현재 장면에 필요한 추론 단계 수를 예측합니다; 간단한 작업은 짧은 호라이즌을, 복잡하거나 다중 객체 작업은 더 긴 추론을 트리거합니다.
- LAPO RL Loop –
- Policy: 잠재 CoT 출력을 받아 모터 명령(관절 각도, 그리퍼 상태)을 제안합니다.
- Critic: 작업 성공, 안전(충돌 회피), 추론 효율성을 포함한 복합 보상을 사용해 잠재 추론 품질과 결과 행동을 평가합니다.
- Joint Optimization: 그래디언트 업데이트가 잠재 인코더를 통해 역전파되어 모델이 생각하는 방법과 행동하는 방법을 동시에 학습하도록 합니다.
- One‑Shot Warm‑Up – 단일 지도 시연을 통해 인코더와 정책을 초기화하여 이후 RL 미세조정을 위한 합리적인 시작점을 제공합니다.
전체 파이프라인은 단일 GPU에서 엔드‑투‑엔드로 실행되어 연구실 및 산업 프로토타이핑에 실용적입니다.
결과 및 발견
| 설정 | 성공률 | 수렴 속도* |
|---|---|---|
| LIBERO 벤치마크 (시뮬레이션) | 99.8 % (평균) | ~2× 이전 SOTA보다 빠름 |
| 실제 단일 팔 작업 | 워밍업 정책 대비 +44 % | 1‑shot 워밍업 + 30 분 RL |
| 실제 듀얼 팔 작업 | 워밍업 정책 대비 +38 % | 유사한 수렴 |
*수렴은 최고 성능의 90 %에 도달하는 데 필요한 RL 에피소드 수로 측정함.
핵심 관찰
- 적응형 CoT horizon은 쉬운 장면에서 불필요한 연산을 줄여 추론 시간을 절약한다.
- 잠재 추론 모듈을 공동으로 학습함으로써 이전 VLA 시스템을 괴롭히던 “추론 후 행동” 단절을 방지한다.
- 단 하나의 시연만으로도 모델은 견고한 물리 직관을 학습하며, 이는 새로운 객체 구성 및 보지 못한 마찰 계수를 처리할 수 있는 능력에서 드러난다.
실용적 함의
- 로봇 어시스턴트의 빠른 프로토타이핑: 개발자는 단일 인간 시연으로 조작 스킬을 부트스트랩하고 시스템이 스스로 개선하도록 하여 데이터 수집 비용을 절감할 수 있습니다.
- 안전 인식 제어: 잠재 추론이 물리적 역학을 명시적으로 모델링하기 때문에 정책이 자연스럽게 위험한 행동(예: 과도한 힘이나 충돌)을 회피하며, 이는 협동 로봇에 유용합니다.
- 다중 로봇 설정으로 확장 가능: 모듈식 잠재 추론 블록 덕분에 동일한 아키텍처를 여러 팔이나 이동형 베이스를 조정하도록 확장할 수 있습니다.
- 엣지 배포: 적응형 호라이즌으로 인해 추론을 컴퓨팅 예산에 따라 조절할 수 있습니다—저지연 애플리케이션에는 짧은 추론, 오프라인 계획에는 더 긴 추론을 사용합니다.
- 도메인 간 전이: 팀은 시뮬레이션(LIBERO)에서 학습하고 학습된 잠재 역학이 최소한의 파인튜닝으로 실제 하드웨어에 전이될 것으로 기대할 수 있어 시뮬레이션‑투‑리얼 파이프라인을 가속화합니다.
제한 사항 및 향후 연구
- 잠재적 해석 가능성: 연속 CoT가 성능을 향상시키지만 여전히 블랙박스이며, 인간이 읽을 수 있는 추론 단계 시각화 또는 추출은 아직 해결되지 않은 과제이다.
- 고도로 확률적인 환경에서의 샘플 효율성: 현재 LAPO 공식은 비교적 결정론적인 물리를 가정한다; 잡음이 많은 실제 접촉에서는 추가적인 견고성 메커니즘이 필요할 수 있다.
- 장기 과제에 대한 확장성: 적응형 호라이즌은 몇 단계의 추론까지는 잘 작동하지만, 수십 개의 순차적 하위 목표가 필요한 과제는 계층적 확장이 필요할 수 있다.
- 하드웨어 제약: 저전력 임베디드 컨트롤러에서 실시간 배포는 아직 프로파일링이 필요하며, 저자들은 향후 작업에서 모델 압축 및 양자화를 탐구할 계획이다.
전체적으로 LaST‑R1은 잠재 물리적 추론과 강화 학습을 결합하는 매력적인 방향을 제시하며, 개발자들이 더 똑똑하고 적응력 있는 로봇 시스템을 구축할 수 있는 실용적인 경로를 제공한다.
저자
- Hao Chen
- Jiaming Liu
- Zhonghao Yan
- Nuowei Han
- Renrui Zhang
- Chenyang Gu
- Jialin Gao
- Ziyu Guo
- Siyuan Qian
- Yinxi Wang
- Peng Jia
- Chi‑Wing Fu
- Shanghang Zhang
- Pheng‑Ann Heng
논문 정보
- arXiv ID: 2604.28192v1
- 카테고리: cs.RO, cs.CV
- 출판일: 2026년 4월 30일
- PDF: Download PDF