[논문] VLA에 무엇을 말할지 학습: 대체로 무해한 비전·언어·행동 모델 제어
개요
Vision‑Language‑Action (VLA) 모델은 로봇 제어를 위한 자연어 인터페이스를 제공하지만, 언어와 행동 사이의 매핑은 종종 취약하고 직관적이지 못합니다. 의미적으로 유사한 명령이 전혀 다른 행동을 유발할 수 있으며, 일부 능력은 프롬프트만으로는 끌어낼 수 없습니다. 이러한 이유로 인간의 지시나 제로샷 언어 모델 모두 VLA를 성공적인 작업 수행으로 일관되게 유도하지 못할 수 있습니다. 본 연구에서는 폐쇄‑루프 VLA 작업 성능을 향상시키는 언어 시퀀스를 인터랙티브하게 탐색하고, 이를 테스트 시점 언어 피드백 정책(LFP)으로 압축하며, 언어 스티어링이 성능을 개선할 시점을 예측하는 개선 헤드를 학습하는 프레임워크를 제안합니다. 우리는 이 개선 헤드를 컨포멀화하여, 분포 외 시나리오에서 LFP가 원래 지시보다 작업 성능을 저하시키는 해로운 스티어링 개입을 방지합니다. 핵심은 우리의 접근 방식이 임의의 고정된 사전 학습 VLA에 적용 가능하다는 점이며, 원본 학습 분포에 대한 접근이나 모델 파인튜닝이 전혀 필요 없습니다. 본 방법을 본 적이 있는 환경에서는 컨포멀화된 LFP가 시뮬레이션에서 기본 VLA 성능을 24.7%, 실제 하드웨어에서는 65.0% 향상시켰습니다. 시각 및 의미적 교란 상황에서도 컨포멀화된 LFP는 강력한 무해성 보장을 제공하며, 오픈‑루프 프롬프트에서는 관찰되지 않았던 복구 행동을 생성합니다.
핵심 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.RO
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.RO 분야의 발전에 기여합니다.
저자
- Hyun Joe Jeong
- Gokul Swamy
- Andrea Bajcsy
논문 정보
- arXiv ID: 2606.12299v1
- Categories: cs.RO, cs.LG
- Published: 2026년 6월 10일
- PDF: Download PDF