[Paper] 당신이 의미하는 바를 지적하라: Visually Grounded Instruction Policy

발행: 1주 전 (2025년 12월 22일 오전 09:44 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.18933v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 도와드리겠습니다.

개요

이 논문은 Point‑VLA라는 플러그‑인‑플레이 정책을 제시한다. 이 정책은 Vision‑Language‑Action (VLA) 에이전트의 언어 명령에 경계 상자 “포인트”와 같은 명시적인 시각적 단서를 추가한다. 모델에게 어떤 객체를 조작해야 하는지에 대한 픽셀‑레벨 힌트를 제공함으로써, 특히 복잡하거나 분포 외(OOD) 환경에서 지시의 모호성을 크게 줄인다. 동시에 기본 VLA 아키텍처는 그대로 유지한다.

주요 기여

시각적으로 기반된 지시 정책: 자연어 명령과 경계 상자 좌표를 결합하는 가벼운 “포인트‑앤‑텔” 인터페이스를 도입합니다.
자동 주석 파이프라인: 사전 학습된 객체 탐지기와 언어 모델을 활용하여 최소한의 인간 라벨링으로 언어‑포인트 지시가 쌍을 이루는 확장 가능한 데이터셋을 구축합니다.
플러그‑앤‑플레이 설계: Point‑VLA는 시각 인코더를 재학습할 필요 없이 기존 텍스트 전용 VLA 모델(예: CLIP 기반 정책)에 그대로 적용할 수 있습니다.
견고한 실증적 향상: 실제 지시 작업에서 일관된 성능 향상을 보여주며, 특히 시각적 혼잡이 심한 상황과 보지 못한 객체 카테고리에서도 뛰어납니다.
일반화 분석: 픽셀 수준의 그라운딩이 순수 텍스트 프롬프트보다 정책이 새로운 장면과 객체로 더 잘 일반화하도록 돕는다는 것을 입증합니다.

방법론

Base VLA model – 저자들은 RGB 프레임과 텍스트 명령을 입력으로 받아 저수준 제어(예: 로봇 팔 속도)를 출력하는 표준 Vision‑Language‑Action 아키텍처에서 시작합니다.
Point augmentation – 추론 단계에서 사용자(또는 상위 인식 모듈)가 대상 객체 주위에 경계 상자를 제공합니다. 상자 좌표는 작은 2‑D 위치 임베딩으로 인코딩되어 언어 토큰 임베딩과 연결됩니다.
Training data generation –
- 사전 학습된 객체 탐지기가 대규모 비디오‑명령 데이터셋을 스캔하고 후보 상자를 제안합니다.
- 언어 모델이 원래 명령을 감지된 객체를 참조하도록 재작성합니다(예: “pick up the red mug” → “pick up the red mug inside box #3”).
- 명백한 오류를 걸러내기 위해 인간 주석자가 수행하는 아주 작은 검증 단계만 필요하므로 파이프라인 비용이 저렴합니다.
Fine‑tuning – 증강된 명령(텍스트 + 포인트)을 VLA 정책에 입력하고, 새로 만든 데이터셋으로 미세 조정합니다. 시각 인코더가 고정되어 있기 때문에 학습이 빠르고 메모리 효율적입니다.

Results & Findings

Scenario	Text‑only VLA	Point‑VLA (Ours)	Relative ↑
Clean tabletop (in‑distribution)	78 % success	86 % success	+8 %
Cluttered kitchen (OOD objects)	45 % success	68 % success	+23 %
Novel object categories (never seen in training)	31 % success	55 % success	+24 %

Success metric: task‑completion rate (e.g., “pick up the target”, “push the correct block”).
Ablation: Removing the point embedding drops performance back to the text‑only baseline, confirming that the visual cue is the driver of improvement.
Generalization: Point‑VLA maintains >60 % success on scenes with completely new layouts, whereas the baseline collapses below 40 %.

Practical Implications

Robotics UI: 개발자는 원격 조작 또는 보조 로봇을 위한 간단한 “click‑to‑act” 인터페이스를 구축할 수 있습니다—사용자는 카메라 피드에서 대상만 클릭하면 로봇이 명령을 신뢰성 있게 실행합니다.
Data‑efficient scaling: 자동 주석 파이프라인을 통해 기존 비디오 로그에서 비용이 많이 드는 수동 라벨링 없이도 수천 개의 구체적인 명령을 생성할 수 있어 제품 개발 주기를 가속화합니다.
Improved safety: 의도한 객체를 명시적으로 지정함으로써 시스템은 주변 물체와의 우발적인 상호작용을 감소시킵니다—가정용 또는 창고 로봇에 있어 중요한 요소입니다.
Cross‑modal debugging: 바운딩 박스 오버레이는 개발자가 정책이 정확히 무엇에 주목하고 있는지 확인할 수 있는 해석 가능한 훅을 제공하여 오류 사례의 문제 해결을 단순화합니다.

제한 사항 및 향후 작업

탐지기 품질 의존성: 상위 객체 탐지기가 객체를 잘못 위치시키거나 탐지에 실패하면, 정책도 그 오류를 그대로 물려받습니다.
바운딩‑박스 세분화: 매우 작거나 심하게 가려진 객체는 여전히 어려움을 주며, 보다 풍부한 마스크나 키포인트 단서가 도움이 될 수 있습니다.
인간‑중심 루프 요구: 주석 파이프라인은 비용이 저렴하지만, 실제 환경에서 고품질 포인트를 완전 자동으로 생성하는 문제는 아직 해결되지 않은 과제입니다.
향후 방향: 저자들은 다중 모달 포인트(예: 깊이 정보 또는 세그멘테이션 마스크) 탐색, 다중 객체 지시로의 확장, 탐지기가 없을 때 모호한 언어로부터 포인트를 추론할 수 있는 학습된 어텐션 메커니즘 통합 등을 제안했습니다.

저자

Hang Yu
Juntu Zhao
Yufeng Liu
Kaiyu Li
Cheng Ma
Di Zhang
Yingdong Hu
Guang Chen
Junyuan Xie
Junliang Guo
Junqiao Zhao
Yang Gao

논문 정보

arXiv ID: 2512.18933v1
카테고리: cs.CV, cs.RO
출판일: 2025년 12월 22일
PDF: Download PDF

[Paper] 당신이 의미하는 바를 지적하라: Visually Grounded Instruction Policy

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론

[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing

[Paper] 연관 학습을 위한 Track-Detection Matching for Multi-Object Tracking

[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델