[Paper] TempoVLA: 속도 제어 가능한 비전-언어-액션 정책 학습

발행: (2026년 6월 5일 AM 02:59 GMT+9)
3 분 소요
원문: arXiv

Source: arXiv - 2606.06491v1

Overview

로봇 조작은 빠른 실행이 요구되는 저위험 이동 단계와 느리고 정밀한 움직임이 필요한 고위험 접촉 단계가 번갈아 나타납니다. 그러나 기존 Vision‑Language‑Action 모델(VLA)은 학습 시연으로부터 하나의 고정된 속도만을 물려받습니다. 모델 압축, KV‑cache 재사용, 강화 학습 등을 통한 VLA 가속화 시도는 정책을 한 고정 속도에서 다른 고정 속도로 전환할 뿐이며, 감속에 대해서는 거의 다루지 않았습니다. 우리는 각 예측 행동의 크기가 이미 로봇의 이동 속도를 결정한다는 점을 발견했으며, 이를 통해 실행 속도를 직접 제어할 수 있는 경로를 찾았습니다. 이 관찰을 TempoVLA로 구현했으며, 이는 명시적인 조건에 의해 실행 속도를 제어할 수 있는 단일 VLA입니다.

TempoVLA는 두 개의 결합된 구성 요소를 포함합니다:

  1. Variable‑Speed Trajectory Augmentation (VSTA) – 동작 의미를 유지하면서 행동을 병합하거나 분할하여 시연을 원하는 어떤 속도로든 재시간화하는 데이터 측면 기법.
  2. Speed‑conditioning mechanism – 원하는 속도를 정책에 입력하는 모델 측면 접근법.

통계 결과 VSTA는 거의 움직임 오류 없이 요청된 속도에 도달함을 보여줍니다. 시뮬레이션 및 실제 작업에서의 실험을 통해 TempoVLA가 양방향으로 유연한 속도 제어를 달성함을 확인했으며, VSTA는 데이터 활용도를 높여 기본 $1\times$ 성능을 추가로 향상시킵니다. 또한 대규모 멀티모달 모델과 협업함으로써 TempoVLA는 저위험 단계에서는 가속하고 고위험 단계에서는 감속하는 동적 속도 제어를 구현합니다.

Key Contributions

  • cs.RO
  • cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.RO 분야의 발전에 기여합니다.

Authors

  • Dong Jing
  • Jingchen Nie
  • Tianqi Zhang
  • Jiaqi Liu
  • Huaxiu Yao
  • Zhiwu Lu
  • Mingyu Ding

Paper Information

  • arXiv ID: 2606.06491v1
  • Categories: cs.RO, cs.AI
  • Published: June 4, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »