[Paper] DynamicVLA: 동적 객체 조작을 위한 Vision-Language-Action 모델
Source: arXiv - 2601.22153v1
Overview
DynamicVLA는 로봇 학습에서 오랫동안 존재해 온 격차를 해결합니다: 실시간으로 움직이거나 변하는 물체를 조작하는 것. 기존 Vision‑Language‑Action (VLA) 모델은 정적인 픽‑앤‑플레이스 작업에서는 뛰어나지만, 움직임을 예측하고, 밀리초 단위로 반응하며, 지속적으로 그립을 조정해야 할 때는 어려움을 겪습니다. 저자들은 컴팩트하고 빠른 추론이 가능한 VLA 아키텍처와 새로운 벤치마크(DOM)를 도입하여, 동적 조작을 실용적인 실제 환경 배치로 한 단계 끌어올립니다.
주요 기여
- DynamicVLA framework – 0.4 B 파라미터 VLA로, 컨볼루션 비전 인코더와 언어·액션 헤드를 결합하고 저지연 폐쇄‑루프 제어에 최적화되었습니다.
- Continuous Inference – 인식‑추론과 모터 실행 파이프라인을 겹쳐서 전통적인 단계별 추론에 비해 반응 지연을 최대 60 % 감소시킵니다.
- Latent‑aware Action Streaming – 잠재 표현을 직접 컨트롤러에 스트리밍하는 시간 정렬 메커니즘으로, 인식‑실행 간격을 없앱니다.
- DOM benchmark – 대규모 합성‑실제 데이터셋(≈200 K 합성 에피소드, 2 K 실제 에피소드)으로, 2.8 K 씬과 206개의 객체를 포함하며 동적 조작 연구를 위해 설계되었습니다.
- Empirical validation – 시뮬레이션 및 실제 로봇 전반에 걸쳐 속도, 정확도, 일반화에서 우수함을 보여주는 광범위한 실험 결과, 그리고 크로스‑임베디먼트 전이까지 포함합니다.
Methodology
-
Compact Vision Encoder – 무거운 Vision Transformer 대신, DynamicVLA는 공간 구조를 보존하면서 모델 크기를 0.4 B 파라미터로 유지하는 얕은 컨볼루션 백본을 사용합니다. 이를 통해 일반 GPU나 엣지 디바이스에서도 30 ms 미만의 지연 시간으로 추론이 가능합니다.
-
Multimodal Fusion – 언어 명령(예: “구르는 공을 잡아”)을 임베딩한 뒤, 여러 시간 스케일에서 시각 특징과 연결합니다. 결합된 잠재 표현은 가벼운 액션 디코더에 입력되어 연속적인 모터 명령을 예측합니다.
-
Continuous Inference Loop
- Perception thread는 카메라 프레임을 지속적으로 인코더에 스트리밍합니다.
- Reasoning thread는 새로운 프레임이 도착할 때마다 잠재 표현을 업데이트하며, 이전 액션이 끝나기를 기다리지 않습니다.
- Execution thread는 최신 잠재 표현을 사용해 높은 제어 주파수(≈100 Hz)로 모터 명령을 생성합니다.
-
Latent‑aware Action Streaming – 시스템은 잠재 궤적을 실제 액션 궤적과 정렬시키는 시간 일관성 손실을 적용합니다. 이를 통해 컨트롤러는 지연된 스냅샷이 아니라 부드럽고 예측 가능한 신호를 받게 됩니다.
-
Data Collection Pipeline – 자동화된 시뮬레이터가 다양한 동적 시나리오(던져지는 물체, 미끄러지는 물체, 회전하는 물체)를 생성하고, 동기화된 비전, 언어, 액션 스트림을 기록합니다. 텔레오퍼레이션이 필요 없는 실제 환경 파이프라인은 모션 캡처 마커와 상용 카메라를 활용해 대규모로 유사 데이터를 수집합니다.
Results & Findings
| 지표 | Static VLA (baseline) | DynamicVLA (ours) |
|---|---|---|
| Reaction latency (ms) | 120 | 48 |
| Success rate on moving‑object catch (sim) | 62 % | 89 % |
| Success rate on moving‑object catch (real) | 48 % | 81 % |
| Zero‑shot generalization to unseen objects | 55 % | 78 % |
| Parameter count | 1.2 B | 0.4 B |
- Speed: 연속 추론(Continuous Inference)은 인지‑행동 지연을 약 60 % 감소시켜, 빠르게 움직이는 물체에 필수적이다.
- Accuracy: 잠재 인식 스트리밍(Latent‑aware streaming)은 더 부드러운 궤적을 제공하여 과도한 오버슈트 오류를 40 % 줄인다.
- Generalization: 압축된 인코더는 보다 전이 가능한 공간 특징을 학습해, 훈련 중 보지 못한 객체와 장면을 모델이 처리할 수 있게 한다.
- Cross‑embodiment: 7‑DoF 팔에서 학습된 정책을 6‑DoF 모바일 매니퓰레이터에 전이했을 때 성능 손실이 <5 %에 불과해, 구현체에 구애받지 않는 추론을 입증한다.
실용적 시사점
- Robotics developers는 이제 사전 학습된 DynamicVLA 체크포인트를 기존 ROS 파이프라인에 통합할 수 있어, 맞춤형 하드웨어 없이도 100 ms 미만의 반응 시간을 얻을 수 있습니다.
- Manufacturing & logistics: 컨베이어 벨트 위의 물품을 빠르게 픽‑앤‑플레이스하거나 떨어지는 부품을 잡는 것이, 수작업으로 만든 상태 머신 대신 단일 통합 모델만으로도 가능해집니다.
- Assistive robotics: 서비스 로봇이 움직이는 물체를 안전하게 가로채고(예: 걸어가는 사용자가 컵을 받도록 전달) 신뢰할 수 있는 예측을 수행할 수 있습니다.
- Simulation‑to‑real transfer: DOM 벤치마크는 동적 정책을 학습하고 평가하기 위한 즉시 사용 가능한 데이터셋을 제공하여 스타트업의 데이터 수집 장벽을 낮춥니다.
- Edge deployment: 0.4 B 크기의 모델은 최신 Jetson 또는 Coral 디바이스에 탑재 가능해, 모바일 플랫폼에서 온보드 추론을 실현할 수 있습니다.
제한 사항 및 향후 연구
- 센서 모달리티: 현재 시스템은 RGB 비전에 의존하고 있으며, 깊이 정보나 촉각 피드백을 통합하면 가려진 상황이나 저조도 시나리오에서의 견고성을 더욱 향상시킬 수 있습니다.
- 복잡한 동역학: 매우 높은 속도(>5 m/s)의 물체는 여전히 지연 예산에 도전이 되며, 향후 하드웨어 가속 인코더나 예측 모델이 필요할 수 있습니다.
- 벤치마크 다양성: DOM이 많은 객체와 장면을 포괄하고 있지만, 동적 조작과 내비게이션을 결합한 장기 과제가 부족합니다—데이터셋을 확장할 수 있는 방향입니다.
- 소수 예시 학습: 모델은 여전히 대규모 합성 사전 학습의 혜택을 받으며, 메타러닝이나 프롬프트 기반 적응에 대한 연구가 데이터 요구량을 줄일 수 있습니다.
DynamicVLA는 복잡하고 끊임없이 움직이는 현실 세계에서 안전하고 효율적으로 작동할 수 있는 진정으로 민첩한 인식 기반 로봇을 향한 중요한 단계입니다. 실험에 열정적인 개발자를 위해, 저자들은 코드, 사전 학습된 가중치 및 DOM 벤치마크를 오픈소스로 공개하여 차세대 동적 조작 애플리케이션을 쉽게 구축할 수 있도록 했습니다.
저자
- Haozhe Xie
- Beichen Wen
- Jiarui Zheng
- Zhaoxi Chen
- Fangzhou Hong
- Haiwen Diao
- Ziwei Liu
논문 정보
- arXiv ID: 2601.22153v1
- Categories: cs.RO, cs.CV
- Published: 2026년 1월 29일
- PDF: PDF 다운로드