[논문] VLA가 기본을 알까? 비전‑언어‑액션 모델의 상식·세계 지식 측정

발행: 1일 전 (2026년 6월 18일 AM 02:20 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19297v1

Overview

에뮴바디드 비전‑라잉‑액션(VLA) 모델은 로봇 데이터로 강력한 사전 학습된 VLMs을 미세조정하여 일반적으로 획득됩니다. 그러나 적응 후에는 어느 정도 상식과 사실적 지식을 유지하는지 명확하지 않습니다. 지식 민감 작업에서의 실패는 모호하며, 저수준 제어의 일반화 부재와 상식이 누락된 것을 혼동합니다. Act2Answer라는 가벼운 프로토콜을 도입하여 에이전트가 액션을 통해 답변하도록 함으로써 VLM 지식 벤치마크를 VLA 평가에 맞게 적응시킵니다. 각 질문은 에이전트가 단일 물체 배치 액션을 수행하여 후보 답변 중 하나를 선택하는 짧은 탁상 위쪽 에피소드가 됩니다. 이를 통해 제어 혼동이 감소된 행동 기반 성공률을 얻습니다. 다양한 상식과 세계 지식 카테고리에서 이러한 환경을 테스트용 세트를 구성하고, 계층별 의도 탐사(layerwise intent probing)를 도입하여 VLM 백본과 액션 헤드 전체에 걸쳐 답변 관련 정보를 국소화합니다. 7개의 VLA 모델과 9개의 VLM 베이스라인에 대한 대규모 연구를 진행했으며, 체계적으로 카테고리별로 모델을 순위 지정했습니다. 결과는 VLAs가 단순한 개념에서는 solide한 성능을 보이며, 소스 VLMs에 비해 풍부한 의미 범주에서는 더 큰 격차를 보인다는 것을 보여줍니다. VQA 공동 학습은 지식 유지와 연관되어 있으며, 답변 관련 신호는 중간 VLA 층에서 정점을 맞으나 상위 층에서는 감소합니다. Act2Answer는 https://tttonyalpha.github.io/act2answer/ 에서 이용 가능합니다.

Key Contributions

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG
cs.RO

Methodology

자세한 방법については 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.LG의 발전에 기여합니다.

Authors

Nikita Kachaev
Andrey Moskalenko
Matvey Skripkin
Nikita Kurlaev
Daria Pugacheva
Albina Burlova
Mikhail Kolosov
Denis Shepelev
Andrey Kuznetsov
Elena Tutubalina
Aleksandr I. Panov
Alexey K. Kovalev
Vlad Shakhuro

Paper Information

arXiv ID: 2606.19297v1
카테고리: cs.LG, cs.RO
발행일: 2026년 6월 17일
PDF: PDF 다운로드

[논문] VLA가 기본을 알까? 비전‑언어‑액션 모델의 상식·세계 지식 측정

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성