[Paper] TempoVLA: 속도 제어 가능한 비전-언어-액션 정책 학습

발행: 6일 전 (2026년 6월 5일 AM 02:59 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06491v1

Overview

로봇 조작은 빠른 실행이 요구되는 저위험 이동 단계와 느리고 정밀한 움직임이 필요한 고위험 접촉 단계가 번갈아 나타납니다. 그러나 기존 Vision‑Language‑Action 모델(VLA)은 학습 시연으로부터 하나의 고정된 속도만을 물려받습니다. 모델 압축, KV‑cache 재사용, 강화 학습 등을 통한 VLA 가속화 시도는 정책을 한 고정 속도에서 다른 고정 속도로 전환할 뿐이며, 감속에 대해서는 거의 다루지 않았습니다. 우리는 각 예측 행동의 크기가 이미 로봇의 이동 속도를 결정한다는 점을 발견했으며, 이를 통해 실행 속도를 직접 제어할 수 있는 경로를 찾았습니다. 이 관찰을 TempoVLA로 구현했으며, 이는 명시적인 조건에 의해 실행 속도를 제어할 수 있는 단일 VLA입니다.

TempoVLA는 두 개의 결합된 구성 요소를 포함합니다:

Variable‑Speed Trajectory Augmentation (VSTA) – 동작 의미를 유지하면서 행동을 병합하거나 분할하여 시연을 원하는 어떤 속도로든 재시간화하는 데이터 측면 기법.
Speed‑conditioning mechanism – 원하는 속도를 정책에 입력하는 모델 측면 접근법.

통계 결과 VSTA는 거의 움직임 오류 없이 요청된 속도에 도달함을 보여줍니다. 시뮬레이션 및 실제 작업에서의 실험을 통해 TempoVLA가 양방향으로 유연한 속도 제어를 달성함을 확인했으며, VSTA는 데이터 활용도를 높여 기본 $1\times$ 성능을 추가로 향상시킵니다. 또한 대규모 멀티모달 모델과 협업함으로써 TempoVLA는 저위험 단계에서는 가속하고 고위험 단계에서는 감속하는 동적 속도 제어를 구현합니다.

Key Contributions

cs.RO
cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.RO 분야의 발전에 기여합니다.

Authors

Dong Jing
Jingchen Nie
Tianqi Zhang
Jiaqi Liu
Huaxiu Yao
Zhiwu Lu
Mingyu Ding

Paper Information

arXiv ID: 2606.06491v1
Categories: cs.RO, cs.AI
Published: June 4, 2026
PDF: Download PDF

[Paper] TempoVLA: 속도 제어 가능한 비전-언어-액션 정책 학습

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법